*.*技术需求 *.*.*需求理解要求 投标人需详细分析项目需求,需要包含总体思路、目标定位、项目难点(包括技术难点)、项目要点(包括关键技术分析)、项目总体建设内容*大部分。要求总体思路把握明确,目标定位准确,项目难点、要点理解全面,项目总体建设内容完善。 *.*.*总体架构需求 沈阳市应急管理数据治理是按照“模块规划、分层构建”的思想,基于“松散耦合、结构开放、功能可扩展”的构建原则进行建设,整体架构中需包含:数据接入系统、数据处理系统、数据资源池、数据服务、数据管控系统、数据共享交换系统以及数据标准规范等内容。 *.*.*数据标准规范建设需求 应急管理数据标准规范总体上分为数据内容、数据采集、数据组织、共享交换以及数据管理等*大类,本期工程标准规范体系主要以采标为主,结合应急管理部下发标准规范和政务办制定的标准规范进行采标、对标工作,将对标后形成的统*标准向地市下发。 数据内容标准规范 数据内容类规范包括《数据元规范》、《代码集规范》*个规范,用于规范数据治理全过程数据的表示、存储等过程。适用于数据治理系统中所涉及的数据管理人员和平台开发人员。 数据采集标准规范 数据采集规范包括《数据接入规范》、《数据处理规范》*个规范,应用于规范各种渠道来源应急管理数据的接入、处理。适应于应急管理数据治理系统的设计、开发、实施人员。 数据组织标准规范 数据组织标准规范包括《数据库命名规范》、《数据项规范》*项内容,适应于规范和指导应急管理数据治理系统中原始数据库、资源数据库、主题数据库、专题数据库、知识库等各类数据库的设计。 共享交换标准规范 共享交换标准规范包括《应急管理信息资源目录规范》、《数据服务规范》、《数据传输格式规范》、《数据交换技术规范》、《数据汇聚分发规范》*项内容,适用于规范和指导应急管理数据治理系统向各成员单位开放数据服务和成员单位与市应急管理局数据治理系统进行信息交换。 数据管理标准规范 数据管理标准规范包括《数据分级分类》、《数据运维规范》、《数据质量规范》*项内容,贯穿于应急管理数据治理系统中信息资源的访问、操作、应用以及运维等数据管理的各个阶段。适用于数据治理系统项目的规划设计者、开发者、建设者和使用者。 *.*.*数据接入系统需求 功能性需求 数据接入功能是实现相关业务数据以标准化、模块化的方式全域数据接入并存储至资源池。功能主要有数据探查、数据读取、任务管理、断点续传、数据分发等。 *、数据探查 数据探查是指通过对来源数据存储位置、提供方式、总量和更新情况、业务含义、字段格式语义和取值分布、数据结构、数据质量等进行多维度探查,以达到认识数据的目的,为数据定义提供依据。 *、数据读取 数据读取是指从源系统抽取数据或从指定位置读取数据,检查数据是否与数据定义*致:不*致的停止接入,并重新进行数据的探查和定义。 数据接入管理:按照标准化模块方式建立可适配的多源异构数据接入模式;支持按照元数据对接入规则进行管理;具备丰富的***组件库,可实现数据抽取、关联、排序、去重、转换、聚合、装载等功能,支持以插件方式对接入能力进行扩展,帮助实现高效数据读取任务;实现对接入任务的调度与控制,及其运行状态的监控; 适配管理:支持对各种数据存储方式的接入适配,支持网络和分布式文件系统、关系型数据库、非关系型数据库、文件共享服务器、**********接口、消息总线等多种数据采集方式。支持数据库实时、离线,全量和增量的抽取,对结构化、非结构化文件全量和增量的抽取。能够适配各种主流数据库,包括但不限于******、*****、*********、**********、*******、*****、******、********。同时能够适配包括但不限于达梦、华为等国产数据厂商和云服务提供商数据库服务产品。需要支持适配各种主流大数据平台,包括但不限于华为、阿里、腾讯等云和大数据服务厂商的大数据平台产品。 *、数据对账 数据对账是针对数据接入环节,对数据提供方和数据接入方在某*对账节点的完整性、*致性、正确性进行核对和检验的过程。如果在某*对账时间点数据提供方和数据接入方分别对应的数据条数不*致,说明对账出现异常。 *、断点续传 数据接入系统支持数据传输过程中的断点续传。在数据传输过程中,当遇到网络故障、传输资源短缺、入原始库挤压时,断点续传记录接入数据中断点以及数据接入中断状态,支持自动断点继传,在网络故障和服务器故障修复后,可自动重启中断的交换任务,从故障点自动继传数据。支持任务断点续传功能,保证整体作业的高可用,避免整个作业重跑,提升任务效率。在子任务失败的情况下,对已经部分完成的动作进行自动回滚,避免部分入库导致整个数据抽取失败并不可逆的情况发生。 *、任务管理 数据接入系统支持多样化的任务管理方式,支持实时、准实时、周期性定时批量、全量等多种频率的任务调度。对数据接入的任务支持多角度的任务监控功能。支持对数据加工处理流程的执行,支持任务调度管理的任务流程。可实现对转换的任务调度,可按秒、分钟、小时、周、月、年进行调度,也可指定时间范围内进行调度。提供作业的统*调度,对作业提供多种执行方式,减少由于作业之间的资源争抢导致的性能下降。支持数据库基于日志实时增量数据抽取,减少对数据生产库的影响。支持白名单管理功能。 *、数据分发 数据分发模块负责提供对外分发的统*配置、管理、执行和监控,根据不同的数据使用场景,按照接入分发策略存入原始库。 非功能性需求 千兆网络单节点环境下,小于*****的小文件数据接入速率≥****/秒;大于*****的大文件数据接入速率≥****/秒,流式数据接入速率≥****/秒。 ***支持*万级别代码片段管理。 *.*.*数据处理系统需求 功能性需求 数据处理功能是通过对多源异构数据进行标准化处理和融合处理提升数据价值密度。功能主要有数据抽取、数据转换、数据清洗、数据去重、数据补全、数据关联、数据融合、数据比对等,可通过清洗、关联、比对等数据处理过程实现数据的标准化处理以满足数据应用需要的数据资源。数据处理需要支持图形化的拖拽方式,方便开发人员进行数据开发,需要支持图形化工作流,方便管理人员理解数据处理逻辑和实施运维监控。 *、数据提取 数据提取是原始数据进行规范化处理的过程,主要针对半结构化和非结构化数据,通过数据提取过程,从这些数据中提取出人员、机构、应急物资、事件等相关信息,并将提取的信息以结构化形式进行存储。支持诸如***、***、***和*****等格式和***包数据抽取。 *、数据清洗 数据清洗是对业务数据中不符合标准规范或者无效的数据进行相关操作。在进行数据整合之前先定义数据的清洗规则,并对符合清洗规则的数据设置数据的错误级别。支持数据抽取、关联、排序、去重、转换、聚合、装载等功能。可以通过拖拽的方式快速完成各种复杂数据清洗需求。支持提供的清洗组件覆盖值映射、数据校验、合并记录、数据计算、随机数、数据拆分、数据生成、数据去重、数据分组、数据去重等复杂处理。 *、数据关联 数据关联组件需要完成在不同数据集之间的关联,实现在不同数据集的联动,为数据治理、业务应用的需求提供支撑。支持基于标准的数据元体系、数据字典提下驱动形成原始数据与标准体系的关联。支持数据表关联提供表与表、字段与字段之间的关联管理功能,具备数据表、字段级别的关联功能。支持提供建立数据元和表字段的数据关联,根据语义相似度自动关联数据元到数据表的某个字段,完成数据表字段与标准数据元的关联关系配置,支持机器学习推荐的方式建立逻辑实体与物理数据的数据关联。 *、数据融合 数据经过标准化规范化去噪后,使得数据的可用性明显提高,但数据与数据之前仍然存在较多的信息孤岛,数据与数据之间的模糊关系对隐含信息的挖掘和提取仍然提出较大挑战。 数据融合负责数据模型的建模、基础知识挖掘的样本训练与样本测试。通过对标准数据库中的数据进行对象标识、对象关联、业务标识等加工,加工后的数据用于分析挖掘。 通过数据融合,从标准数据中提炼出有价值的业务信息,通过提炼业务实体,构建原有业务实体与新业务实体之间的关系,标明原有业务实体与新业务实体的内在联系和内在的业务规则。处理流程融合集中应急信息资源数据及互动管理。 非功能性要求 支持千万级结构化规则比对。 离线处理,在**亿级别的数据处理过程中,结果返回时间&**;=*分钟。 *.*.*数据资源池建设需求 原始库的设计遵循保持源数据的原始形态、数据表结构基本*致的原则,因此,也称为贴源库,主要用于保存由各数据源汇聚而来的原始数据。 资源库的设计遵循数据按照业务属性分类的原则,从原始库抽取、清洗、关联后,按照应急管理业务、政务部门、企事业单位、社会公众等进行分类存储,作为主题库、专题库建设的数据来源。 主题库的设计遵循“业务性、共享性、规范性”原则,业务性是指主题库的设计必须是面向业务主题,而不是面向某个系统;共享性是指主题库的设计,需要充分考虑内部系统对数据的共享使用,例如“救援资源主题库”,无论是台风灾害救援、地震灾害救援还是其他灾害所需要的救援资源都可以从这个主题库中获取;规范性是指在构建主题库模型时,主题库中的数据项具有原子性等特征。 专题库的设计遵循“自上而下”的原则,即从应急管理的专题业务应用开始,分析该专题需要哪些数据支撑,然后从主题库中抽取、关联、分类归置到相应专题库中,支撑应急管理专题应用。 原始库建设需求 原始库汇聚国家应急管理部、市相关部门、沈阳市应急管理局、区县应急管理局、社会公众等来源的数据,包括安全生产、自然灾害、公共安全、应急物资、网络舆情等数据信息,作为数据资源池的基础数据。 原始库设计需要在应急管理数据来源和数据资源池之间形成*个良好的过渡,保障数据资源池数据可追溯。对于不同来源的数据,应该按照其数据来源进行清晰的标识,对于不同种类的数据,应该采取不同的存储机制进行存取。 资源库建设需求 资源库的数据是由原始库的数据经过清洗、转换、关联、比对等数据处理过程后形成的标准数据。 资源库的设计包括数据结构设计、数据表结构设计和加工过程设计。在资源库的数据结构设计上,以原始库数据结构为基础,补充必要的数据字段;在数据表设计上,将相同表结构的数据表进行适当的合并,并保留原始库的表名以方便进行溯源;数据加工过程设计是资源库设计中最核心的部分,这部分要进行数据标准、数据元的设计,以及原始数据和标准数据元的关联设计,从而将资源库的数据处理成符合标准的数据。 主题库建设需求 主题库是将分散在资源库各业务数据表中的要素提取出来,根据应急对象要素、要素特征等进行搭建,主要用于对资源库的存储层中的数据进行深度关联整合。 *般来说,带有资源库的数据仓库体系结构中,主题库所存储的数据都是基于资源库层进行汇总过的数据,并不存储细节数据,在某些特殊的应用中,可能需要对细节数据进行查询,这时就需要把细节数据查询的功能转移到资源库完成。 构建主题库的目的是要打破数据表之间存在的数据壁垒,通过梳理应急管理数据之间的关联关系,从逻辑上打通各个业务数据表,为专题库以及关联查询等提供数据支撑。 按照主题库建设思路,结合应急管理部现阶段对主题库的规划,本期工程将主题库划分为*类:管理对象主题库、事件事故主题库、应急力量主题库、应急资源主题库、其他主题库。 专题库建设需求 专题库设计面向应急管理常态与非常态业务需求,通过将资源库、主题库数据进行*次抽取装载的方法重新组织数据,并根据专项业务需要构建的业务基础专题,能够利用不同的专题实现对业务应用的支撑。 专题库可以在*定程度上缓解访问数据仓库的瓶颈。专题库的特点是数据粒度较粗,数据采取星型或雪花型结构,较少保留历史数据,便于访问分析和快速查询。专题库具有面向特定用户群、合理的查询响应时间、便于扩展的特点。 通过按照规范对数据进行加工、整理和入库,同时构建必要的数据应用的环境,不仅提供统*的数据访问服务,而且满足应急管理在数据分析、计算与可视化的需求,进而满足常态下监测预警等业务需求以及非常态下开展突发事件应急处置的数据应用需求,支撑应急管理业务应用。 本期工程专题库的建设围绕着沈阳市应急管理局现有的业务处室和业务职能进行建设。在沈阳市应急管理局现有数据资源的基础上,考虑专题库建设的可行性进行规划和设计,满足各处室对专题库的业务需求。 本期建设的专题库需要包括:危化品监管专题库、矿山监管专题库、安全生产综合监管专题库、行政许可专题库、行政执法专题库。 *.*.*数据管控系统需求 功能性需求 *、数据标准管理 数据标准管理负责维护用户统*的数据标准信息,是用户各信息业务系统建设、业务数据交互的重要参考。支持对标准管理与维护,提供各项标准文件的查阅与修订功能。 系统通过建立统*的数据标准体系,实现标准数据元库及同义词等关联信息库,清晰描述数据标准管理分类、要素分类、业务分类,支持数据标准的导入和导出操作。支持提供数据元管理和代码表管理功能,支持包括标识类、定义类、关系类、表示类、管理类和附加类等数据元属性管理。数据标准体系建立过程中,通过与应急管理部标准体系的同步或联动,实现最新标准的及时有效更新,并满足应急行业统*标准规范的要求。 系统能够通过机器学习等方式自动推荐的数据元和表字段的数据关联,用以提升数据管理效率。能够支持通过机器学习、文本关联、根据语义相似度自动匹配等方法将数据元关联到数据表的某个字段,完成数据表字段与标准数据元的关联关系配置,降低操作人员的使用复杂度和工作量。 应急管理部目前已经通过部级数据治理系统实现了近***个标准数据元和***多个代码集的在线化管理,主要包括应急管理公共数据元和业务系统数据元。本期项目需将以上数据标准录入至市数据治理系统的元数据管理模块,并实现定期的数据同步,以确保省市两级数据标准的*致性。 *、元数据管理 按照数据整合的层次结构、主题域划分,实现对表、存储过程、索引、数据链、函数和包等各层的各种对象的管理,清晰地表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。 按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技术元数据两类。 元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理等功能组成等。 *、数据血缘管理 数据血缘是在数据产生、加工融合、流转流通到最终消亡等过程中形成的继承关系集合。通过对接入数据、原始库、资源库、主题库等各类数据资源间和数据项间的继承关系进行描述和管理,反映数据资源在各个环节间的继承关系。 系统提供全链的数据血缘分析和展示,可以根据数据库血缘清晰的查看数据在数据源库、数据中心、目标数据库之间的总体流向,支持库级、表级、字段级血缘分析。当选择了某个特定的数据表之后,就可以展示与该表关联的所有表,而且还可以根据层级进行筛选,并且辅以展示相关的统计信息。支持数据表之间的血缘、数据库之间的数据流向血缘、数据处理任务血缘、工作流血缘等明细信息的展示,血缘信息支持对数据治理过程中任何*个细微处理环节中导致的数据的变化、流动等情况进行展示。支持数据血缘信息展示,可进*步查看数据表血缘明细信息。 *、数据质量管理 系统提供对被监控对象进行相关维度的波动分析功能,支持表波动检查和字段波动检查。支持采用同比和环比等方式校验数据波动性,确认所传数据从记录数目和数据量两个维度的总量和增量是否正确。在波动检查过程中,发现和配置的检查规则不*致的情况时,支持相应的告警信息反馈。 系统根据预定义规则对数据进行质量监控功能,从而保证系统所提供数据的可用性与正确性。质量监控规则需要支持以下但不限于布尔分析、完整性分析、标准值域分析、枚举值分析、数值分析、唯*性分析、数值分布、唯*性分析、数值分布分析、外键检查分析、日期分析、日期范围分析等分析方法。 系统提供可视化的数据清洗转换,托拉拽操作实现清洗转换功能。支持去除特定字符、大小写转换、数据脱敏、汉语转拼音、同义词替换和身份证校验转换等常见的质量清洗规则。对稽查对象进行了数据稽查和分析质量告警后,可以根据需要配置清洗规则进行数据清洗。 系统提供对数据表字段空值率、合法率检查功能,能够统计生成数据质量完整性和合法性评估报告,并支持下载。支持提供完整性评估:不完整比率即空值字段占比,是指每张表的不完整列的比率,即不完整字段数/字段总数。支持值域合法率:合法值数/有值总数。 系统数据质量总体视图,能整体上,从全局和表角度查看数据质量统计。 *、数据模型管理 数据建模管理是面向数据模型建设,构建*款可视化的模型设计、模型管理和模型监控的建模工具。保障对模型实体、属性、关系的设计,同时提供对数据模型的标准化管理及*致性监控。完整记录数据仓库模型建设的全过程,为数据的开发、部署、融合等各个阶段提供基础支持。主要功能包括模型目录管理、版本管理、逻辑模型管理、物理模型管理等 *、资源目录管理 将数据资源池中的数据按照原始库、资源库、主题库、专题库等类目分类并进行统*管理,用户可以通过该模块对资源池中的数据表进行搜索,以可视化方的式展示数据表的大小、数据结构、数据标准,并提供数据预览能力。 非功能性需求 程序故障率:处理程序故障不超过*次/月,程序运行稳定性不低于**.*%。 数据管控:支持****亿级数据量管控,支持***亿日增量的数据接入处理管控。 *.*.*数据服务系统需求 数据共享管理 数据共享管理系统作为所有数据服务的统*集成枢纽,将数据服务提供者的数据服务统*提供给开发、管理、业务等人员。该系统支持数据服务目录浏览维护、数据资源检索定位、数据资源申请审核、数据服务监管、数据服务应用维护以及数据服务的上传、下载、订阅等功能。 *、功能性需求 (*)信息资源编码 应急信息资源标识符是应急信息资源元数据中用来对应急信息资源进行唯*标识的*项元素。每项应急信息资源都具有*个唯*不变的标识码。 (*)数据资源内容管理 在数据资源目录树下的各个叶节点,可以挂载各种数据资源,主要包括库表数据、文件和服务接口等。 (*)信息资源订阅 信息资源订阅服务主要对业务数据共享过程进行标准化、规范化的管理,包括订阅申请、订阅审批、订阅审计等功能模块。 *、非功能性需求 支持最大在线用户数不低于*万级人。 *.*关键技术指标 投标人所提供的所有证明材料应加盖公章,未提供有效证明材料或证明材料中内容与所填报指标不*致,该指标按不满足处理。 *.*.*数据接入系统 *、适配多种数据资源:适配各种主流数据库,包括但不限于******、*****、*********、**********、*******、*****、******、********和国产数据库达梦、华为等(要求提供软件功能截图证明材料)。 适配各种主流大数据平台,包括但不限于******、****、*****、**********等(要求提供软件功能截图证明材料)。 *、基础功能 支持数据库基于日志实时增量数据抽取,包括但不限于******、*****等(要求提供软件功能截图证明材料)。 支持用户管理,自定义角色权限,支持白名单管理(要求提供软件功能截图证明材料)。 具备丰富的***组件库,可实现数据抽取、关联、排序、去重、转换、聚合、装载等功能。 *、高性能:基于部署环境及千兆的网络带宽环境下,单节点数据传输速度超过*****/*(即能充分利用千兆网络带宽)。 *.*.*数据处理系统 *、数据开发:支持通过图形化的拖拽方式,将不同类型节点连线组织开发成工作流,便于用户自主管理作业的部署以及生产监控运维(要求提供软件功能截图证明材料)。 支持工作流的导入导出操作,包括但不限于工作流、自定义函数、资源文件和模型等,便于离线备份和异地发布(要求提供软件功能截图证明材料)。 *、任务管理:支持在线进行物理模型来源数据映射配置,并自动生成数据加工任务,配置方式包括但不限垂直拆分、水平拆分、多表联合、多表连接、自定义映射等。 *、数据清洗:提供可视化的数据清洗转换组件,通过托拉拽操作实现过滤、清洗转换功能。数据过滤支持组件包括但不限于长度过滤、正则过滤、标准值域过滤、空值过滤、相等过滤、比较过滤等;质量清洗组件包括但不限于去除特定字符、大小写转换、数据脱敏、汉语转拼音、字典标准化和身份证校验转换等(要求提供软件功能截图证明材料)。 支持通过标准数据元关联,智能生成数据字段清洗任务。 *.*.*数据管控系统 *、元数据管理:适配各种主流类型的数据存储和处理平台,包括但不限于*****、*****、****、*****、**********等。 *、数据血缘:支持全链路数据血缘分析和展示,用户可以根据数据库血缘清晰的查看数据在数据源之间的总体流向,支持库级、表级、字段级血缘分析,可以基于血缘信息进行溯源分析和影响分析(要求提供软件功能截图证明材料)。 *、数据标准:支持机器学习推荐的方式建立数据元和表字段的数据关联,推荐支持双向(要求提供软件功能截图证明材料)。数据标准支持多行业模板。系统支持预置行业模板,支持用户自定义模板。数据标准支持多租户,多实例。各租户、实例可以独立管理。 *.*.*数据服务系统 本期数据服务系统的建设内容为数据共享管理系统,需满足以下关键指标 *、资源目录管理:支持目录批量导入和导出功能(要求提供软件功能截图证明材料)。 提供资源发布、资源申请、资源供应流程的自定义修改功能(要求提供软件功能截图证明材料)。 目录发布阶段,审批方式支持部门内自行审批和父级部门集中审批两种审批模式(要求提供软件功能截图证明材料)。 *个目录支持关联多种资源类型,包括库表、接口、文件。(要求提供软件功能截图证明材料) *、类目划分:支持按照数据来源、主题库和专题库等维度来进行信息资源的类目划分。 *、运维系统:提供系统日志和操作日志记录功能,便于用户事后审计。 *、高可靠:支持高可用部署,提供单节点容错机制,在出现单节点故障时,工作仍可正常运行。 |