科学数据标准规范

国家基础学科公共科学数据中心(下文简称“国家基础数据中心”)的科学数据标准体系覆盖了从数据资源建设到应用及效果评估全生命周期流程,分为专用标准和指导标准(详见表1)。其中,专用标准包括采集与整理、元数据与元模型、系统与接口、数据管理、数据质量、数据服务等多种类型。指导标准则基于专用标准,满足实际项目中某一类型数据库的实际需求,全面指导该类数据库的建设和服务,如主题数据库建设规范、专题数据库建设规范、专业数据库建设规范等。最终形成40余项标准规范,在科学数据资源建设和应用服务中发挥了积极的作用。遵守“有需求、多合作、要实用、慎提升”的原则,中心还推动国家标准和团体标准的研制工作,主导和参研47项(详见表2)。

表1 国家基础数据中心科学数据标准规范清单
标准类型 标准名称 主要内容
指导规范 主题数据库建设规范 本文件定义了主题数据库的总体架构,规定了主题数据库在内容组织、技术实现方面需要完成的工作,并提出了主题数据库在运行维护和服务方面的要求。
专题数据库建设规范 本文件定义了专题数据库的总体架构,规定了专题数据库在内容组织、技术实现方面需要完成的工作,并提出了专题数据库在运行维护和服务方面的要求。
专业数据库建设规范 本文件规定了专业数据库在资源建设、内容组织、质量控制和技术实现方面需要完成的工作,并提出了专业数据库在运行维护和服务方面的要求。
数据采集与整理 学科领域数据处理和加工规范 本文件提出科学数据资源采集加工过程的规范化要求,包括文档要求、数据约定和数据采集加工流程要求等。
化学主题数据库数据资源采集整理工作指南 本文件明确了化学主题数据库的数据来源以及数据采集和更新过程。
动物主题库数据采集整理工作指南 本文件明确了中国动物主题数据库收集、整理及入库的方法及规范。
元数据与元模型 元数据参考模型 本文件规定了元数据研制和应用的流程模型,特别是元数据的格式、语义、语法、注册、一致性测试和评估完善等内容。
数据集核心元数据 本文件规定了元数据应用需要的最小元数据元素,以及为满足各学科领域的特殊需求,对元数据进行扩展和制定元数据应用方案的规则和方法。
数据论文出版元数据 本文件规定了数据论文出版元数据的内容与结构,包括数据集元数据、数据论文元数据及其描述方法、扩展类型与规则。
科学数据溯源元数据 本文件规定了科学数据溯源元数据的描述方法、元数据构成、元数据元素。
系统与接口 元数据访问服务接口规范 本文件规定了元数据访问服务接口采用的协议、连接方式、调用参数以及数据的返回格式。
VDBi接口规范 本文件定义了数据资源服务的访问流程、安全策略、交互方式、请求参数及接口规范。
数据跨域互操作技术规范 本文件规定了数据跨域互操作接口采用的协议、连接方式、调用参数以及数据的返回格式。
跨域用户认证接口规范 本文件规定了跨域用户认证接口采用的协议、连接方式、调用参数以及数据的返回格式。
用户统一认证接口规范 本文件规定了用户统一认证接口采用的协议、连接方式、调用参数以及数据的返回格式。
数据管理 资源唯一标识规范 本文件规定了资源唯一标识符的编码格式、编码规则、编码分配、管理、维护与使用。
科学数据分类规范与分类词表 本文件定义了科学数据的分类方法,数据目录组织方法,并规定了如何将科学数据映射至科学数据目录中。
数据加工增值管理方法 本办法规定了数据加工的人员对象、加工机制、权利与义务、加工合作、增值服务、奖惩等。
建库技术指导规范 本文件主要从关系数据库的命名、关系和结构以及建设过程等几个方面明确了数据库设计应遵循的规范。
技术文档参考规范 本文件明确了《数据库需求说明书》、《数据库元数据需求规格书》、《数据库设计说明书》、《数据库软件概要设计说明书》、《数据库软件详细设计说明书》等主要数据库开发文档模板。
数据质量管理规范 本文件阐述了数据质量管理的框架,包括数据产生阶段的数据质量控制、数据整编阶段的数据质量描述、数据共享阶段的数据质量评价。
数据质量评测方法与指标体系 本文件明确了数据(资源)质量评测的一般方法与数据质量指标体系的建立方法。
共享服务评价指标体系 本文件明确了共享服务评价模型、评价指标体系、评估结果的反馈、评估实施的原则和操作办法等。
数据托管存储管理办法 本办法主要规范了数据托管与存储、数据资源中心、数据托管存储用户、费用、责任免除等。
基础设施协同运行技术规范 本文件规定了协同运行服务内容,包括CIFS服务、FTP服务、NFS服务、存储故障处、网络故障处理等的服务范围、服务内容和管理流程的规范化政策约定。
基础设施协同运行服务规范 本文件规定了协同运行运维中心机房的服务内容,服务目录及其各项服务,包括机房参观申请、门禁授权服务、外部人员出入管理等的服务范围、服务内容和管理流程的规范化政策约定。
数据服务 数据库服务网站建设指导规范 本文件明确了主题数据库、专题数据库、专业数据库的服务网站建设规范,包括网站栏目设计、功能规划、技术实现、管理和安全等。
数据服务指导性规范 本文件明确了数据服务的模式、内容和方式,主要包括基于数据服务网站的数据发现、导航和定阅推送,通过专业人员实现虚拟咨询和专家数据服务,以及在线分发和离线分发。
海量存储设施运维与服务规范 本文件从数据中心机房、网络接入系统运行、局域网系统运行、服务器及存储系统运行、网络系统安全、数据库、应用系统、公共支持等方面规范化了管理与维护,确保整个海量存储设施所有应用和设备的运行正常稳定、安全可靠。
语义查询扩展 本文件描述了基于本体对数据集元数据查询扩展的方法,包括词语—概念相关度词典的构建、概念间相关度计算、查询—概念相关度计算和基于语义概念的元数据查询相关度计算方法。
本体适用性评估 本文件定义了一套本体评价体系,内容包括本体结构层次、本体组织功能层次、本体共享管理层次和本体应用服务层次,它们共同涵盖了影响本体构建和应用的各方面内容,并根据侧重点的不同,每项指标被赋予了不同的权重系数。
表2 国家基础数据中心牵头或参与完成的国家标准清单
序号 国家标准名称 国家标准号 中心排名
1 生态科学数据元数据 GB/T 20533-2006 第1单位
2 信息技术 科学数据引用 GB/T 35294-2017 第1单位
3 信息技术 数据溯源描述模型 GB/T 34945-2017 第1单位
4 科学数据 安全传输技术要求 T/CIIA 020-2022 第1单位
5 科学数据 安全防护技术要求 T/CIIA 021-2022 第1单位
6 科学数据 云存储环境运维流程与服务要求 T/CIIA 022-2022 第1单位
7 科学数据 云平台运维流程与要求 T/CIIA 023-2022 第1单位
8 科学数据托管存储要求 T/STSI 41-2023 第1单位
9 虾青素旋光异构体含量的测定——液相色谱法 GB/T 38478-2021 第1单位
10 中国动物分类代码 第1部分:脊椎动物 GB/T 15628.1-2021 第1单位
11 数据论文出版元数据 GB/T 42813-2023 第1单位
12 土壤科学数据元数据 GB/T 32739-2016 第2单位
13 土壤质量 土壤相关数据的数字交换 GB/T 41224-2021 第2单位
14 科学数据 安全标准体系 T/CIIA 017-2022 第2单位
15 科学数据 数据安全分级程序 T/CIIA 024-2022 第2单位
16 科学数据 数据安全分类质量评价指标 T/CIIA 025-2022 第2单位
17 信息技术 数据交易服务平台 通用功能要求 GB/T 37728-2019 第3单位
18 科技平台 资源核心元数据 GB/T 30523-2014 第4单位
19 科技平台 一致性测试的原则与方法 GB/T 31071-2014 第4单位
20 科技平台 服务核心元数据 GB/T 31073-2014 第4单位
21 信息技术 数据质量评价指标 GB/T 36344-2018 第4单位
22 科技平台 用户元数据 GB/T 39913-2021 第4单位
23 科学数据 安全能力成熟度模型 T/CIIA 019-2022 第4单位
24 生态系统长期观测数据产品分类分级 T/CIIA 027-2022 第4单位
25 生态系统长期观测数据产品规范 T/CIIA 028-2022 第4单位
26 海洋科学数据共享安全管理要求 T/CIIA 029-2022 第4单位
27 微生物数据库安全体系设计要求 T/CIIA 030-2022 第4单位
28 科学数据责、权、利参考类型 T/MSITISA 02-010-2022 第4单位
29 科学数据责、权、利界定指南 T/MSITISA 02-011-2022 第4单位
30 科学数据权益保护技术实施指南 T/MSITISA 02-012-2022 第4单位
31 科学数据责任追究技术实施指南 T/MSITISA 02-013-2022 第4单位
32 信息技术 数据交易服务平台 交易数据描述 GB/T 36343-2018 第5单位
33 科技平台 元数据注册与管理 GB/T 30524-2014 第5单位
34 科学数据 安全管理指南 T/CIIA 018-2022 第5单位
35 中文新闻信息内容 第1部分:概念模型 GB/T 20092.1-2022 第6单位
36 中文新闻信息内容 第2部分:新闻元数据 GB/T 20092.2-2022 第6单位
37 中文新闻信息内容 第3部分:数据交换的XML格式 GB/T 20092.3-2022 第6单位
38 科技计划形成的科学数据汇交 通用代码集 GB/T 39908-2021 第9单位
39 科技计划形成的科学数据汇交通用数据元 GB/T 39909-2021 第9单位
40 科技计划形成的科学数据汇交 技术与管理规范 GB/T 39912-2021 第9单位
41 数据质量 第61部分:数据质量管理:过程参考模型 GB/T 42381.61-2023 第10单位
42 信息技术 大数据 术语 GB/T 35295-2017 第16单位
43 科学数据溯源元数据 计划号20221229-T-306 研制中
44 科学数据安全审计要求 计划号20221227-T-306 研制中
45 科学数据安全要求通则 计划号20221067-T-306 研制中
46 科学数据安全分类分级指南 计划号20221063-T-306 研制中
47 科学数据权益保护基本要求 计划号20221065-T-306 研制中