5月24日,国家数据局会同生态环境部、交通运输部、金融监管总局、中国科学院、中国气象局、国家文物局、国家中医药局等部门在第七届数字中国建设峰会上发布首批20个“数据要素×”典型案例。通过示范引领,激励多方主体积极参与,释放数据要素价值。
案例涵盖了工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳12个行业和领域。本期将聚焦科技创新、文化旅游、医疗健康3个领域的典型案例,详细展示有关单位促进数据要素开发利用的典型经验做法。
科技创新领域
案例八 高质量化学及材料科学数据集 加速材料研发范式变革
材料科学是国民经济发展的基础,材料研发的进步有助于国家经济从高速发展向高质量发展转变,新材料产业的战略性崛起对促进高端装备突破及保障国家重大战略需求意义重大。但材料研发的传统“试错”模式存在研发周期较长、成本较高、不确定性较大等问题。合肥机数量子科技有限公司通过建立高质量化学和材料科学数据库,训练材料配方与合成方案人工智能分析模型,构建机器人实验系统,打造基于数据的材料研发新模式,显著提升新材料研发质效,大幅增强相关产品市场竞争力。
一是建立高质量化学和材料科学数据库
通过挖掘专利论文等文献数据,开展高效量子化学计算,建立了含9000万化合物、1100万化学反应路径的大规模材料数据库。
图1 构建高质量化学与材料数据库
二是训练专项人工智能分析模型
构建包含材料结构、性能等特征的材料配方与合成方案的人工智能分析模型,借助高质量化学和材料科学数据,对模型进行训练和调优,形成可用于寻找材料配方和合成方案的人工智能产品。
图2 构建知识图谱,开发智能模型
图3 推动模型应用
三是打造智能化机器人实验系统
建设机器人试验系统“机器化学家”,实现“数据读取-方案设计-实验操作”全流程智能化,变革材料研发范式,提升研发效能。“机器化学家”日均可完成百次以上化学实验操作,并将数千次实验优化过程缩短至300次以下,开发效率提升超百倍,全局优化准确率达到90%以上。同时,实验结果反哺到数据库中,推动数据智能驱动材料研发的良性循环。2023年上线以来,系统已在20余家高校、科研机构及行业头部企业得到应用,支撑解决了如开发记忆金属、红外探测芯片光吸收增强、磷矿浮选、智能窗材料等一批技术难题,提升了相关产品的技术水平和市场竞争力。
图4 构建数据智能驱动的全流程机器化学家
案例九 多元数据融合 支撑空间与天文科技创新发现
空天科技是一种跨学科、跨领域、跨行业的综合性科技。中国天眼FAST、子午工程等重大科技基础设施建成应用和空间科学系列卫星的发射启用,产生海量数据。该类数据标准不一、来源分散、类别多样,深度应用较难,为高效应用空间天文数据,丰富研究方法,提升处理应用方式,更好地支撑复杂科学问题研究,国家空间科学数据中心、国家高能物理科学数据中心、国家天文科学数据中心等联合通过强治理、研工具,探索形成基于数据的天文领域科学创新模式。
一是促进空间-高能物理-天文科学数据汇聚与全生命周期治理
编制分级分类、管理存储、开放共享等空间高能天文领域系列数据标准10余项,以标准为引领,规范实施全生命周期数据治理,促进跨学科数据汇聚融合。
图1 科技项目与科学数据双生命周期协同管理模式
二是建立空间高能天文领域融合数据库
聚焦跨领域前沿科学问题,面向科学真实需求,打造空天典型事件等数据库,发布空间科学、高能物理、天文学联合主题数据资源。自2021年以来,治理形成高质量空间天文科学数据资源约50PB。
图2 三中心联合发布高能瞬变源多波段监测数据专题,提供面向科学问题的跨领域数据发现服务
三是以数据驱动科学新发现
依托融合数据库、借助人工智能等,联合研发了20余项专用数据分析挖掘工具与模型,推出以超高能宇宙线起源、多波段时域天文、日地空间天气传播链等不同科学场景的高质量在线数据分析应用,服务空间天文领域科技系列创新活动,服务科技计划千余项,助力取得“全球首次打开了10TeV波段的伽马射线暴观测窗口”“获得纳赫兹引力波存在的关键证据”等数十项国际领先的原创性、标志性、突破性科学发现,相关成果发表于《自然》《科学》等国际顶尖学术期刊,多项成果入选当年“中国科学十大进展”。
图3 AI for Data空间与天文领域系列专用软件工具
文化旅游领域
案例十 数据资源融合应用 助力文物传承保护和价值增值
推动数字技术与文物保护利用融合发展是建设文化强国的关键举措。目前,文物数据资源应用率较低,数据要素在文物的保护、管理、传播、利用中发挥的作用不足,难以对文物关联行业的数字化发展起到足够的支撑作用。湖南省博物院积极推进文物数据资源的挖掘、汇聚和利用,通过创新合作开发模式,推动文物数据资源协同优化、复用增效、融合创新。
一是多手段采集汇聚文物数据资源
通过高清影像拍摄和激光扫描等手段,采集文物数据103万条、图片11万张、三维模型2000余个,编制文物数据采集加工地方标准,推动构建马王堆汉墓文物、音乐文物等文物知识图谱,并将文物中涉及的传统医药、农牧渔猎、服饰服装、餐饮美食、礼仪文化、人物事件等元素进行数字化映射、匹配、提取和转化,形成多种文物数据资源集。
二是构建文物数据授权和合作开发模式
积极与高校、优质企业、文化创意团体等签署整体授权或单项合作开发协议,免费开放品牌资源和文化数据库授权,联合打造“数字汉生活”文化IP系列产品,实现文物数据资源在不同领域中的复用增效。先后签约近50家企业和团队,带动近10亿元规模的文化创意及周边产业发展。
三是推动文物数据跨领域融合创新
面向不同行业、不同人群等差异化需求,设计、制作、推出马王堆复原京剧展演、多年龄段“辛追”数字人、文物实景解谜游戏及数字藏品等系列产品。自2022年以来,以汇聚形成的文物数据资源为基础,先后推出云展览、云教育、动画视频、沉浸式体验等200余项数字化项目,浏览量超过1200万次;同时举办2个大型线下数字展览,吸引60余万观众,实现2300万元票房收入,推动了文化传承和文物价值增值协同发展。
图 沉浸式体验、数字人、元宇宙及数字藏品等数字产品
案例十一 图书出版数据融合创新应用推动产业转型升级
作为文化产业的重要组成部分,出版业高质量发展既是顺应信息化时代发展的需要,也有助于满足人民群众的多样化需求。当前,传统出版行业存在多元化市场需求难以捕捉、数据利用分析能力不足等问题,武汉理工数字传播工程有限公司通过整合出版图书产业链上下游不同渠道的数据资源,打造了智能化数据平台,助力出版单位以数据洞察更好把握市场趋势和用户需求,推动出版业数字化转型与创新发展。
一是推动图书出版数据融合汇聚
平台通过整合中国国家版本馆图书数据、1.7亿会员读者数据、全国各省新华集团的线下销售数据,以及京东、天猫、抖音等线上平台的销售数据,构建了包含标签、发行渠道、读者评价、线上数字化服务使用偏好等丰富信息的数据资源库。
二是强化数据质量管理
应用全国统一的出版图书数据标准,制定精细化的实施规范,确保数据格式、结构和质量统一。做好清洗、验证、加密及访问控制等精细化数据治理,确保数据准确、可靠和安全。
三是开发数据产品与服务
对平台图书数据进行深度挖掘和融合分析,为出版单位提供选题策划、读者偏好、市场风向、竞品分析等数据服务。依托平台丰富的图书出版数据资源,开发人工智能(AI)大模型,推出了首个AI阅读服务数字人等数据产品,拓展图书出版数据应用场景和价值空间。
图 出版图书数据平台界面
自2014年成立以来,公司为300多家出版单位提供了覆盖知识策划、整合、发行、服务等全链条的1300多款应用与产品,帮助出版单位在文化产品的选题、策划等方面明显提高了效率和准确性,引导出版企业为社会提供更多更符合大众需求的优质文化产品,累计为出版行业创造了近150亿元实际收入。同时,平台紧跟社会文化需求风向,不仅提高了经济效益,也繁荣了文化市场。
医疗健康领域
案例十二 医疗数据智能化分析辅助提升基层诊疗水平
基层医疗卫生体系是守护亿万人民群众身体健康的“第一道防线”,事关每个人的生活质量。但基层医疗机构往往面临人才不足、医生队伍不稳定、资源供给有限等问题,难以完全满足广大群众对医疗服务的需求。为提升基层医疗服务水平,讯飞医疗科技股份有限公司通过对海量医疗数据的收集和分析,构建医疗AI大模型,为基层诊疗提供智能化辅助,促进基层医疗服务提质增效。
图1 场景流程图
一是汇聚高质量数据资源训练模型
与中华医学会杂志社、开放医疗与健康联盟等权威机构合作,汇聚公开脱敏数据,构建涵盖疾病知识、症状体征、检验检查、药物信息、临床路径、诊疗规范及指南等内容的数据资源库,训练形成智慧医疗AI模型。
二是推进医疗数据与“问、诊、治”场景深度结合
模型与行业信息平台和医院信息系统对接,以“数据不出本地局域网”方式汇聚分析患者病历数据及历史健康信息数据。实现在医生问诊过程中,根据问诊逻辑提示病情问诊;在诊断过程中,对患者病历数据进行智能化分析和判断,协助医生对病情进行合理诊断;在医生下处方和检查检验时,及时给出常见用药和常见检查检验建议,并将异常诊断结果数据及时报送医疗主管部门复核。截至目前,该系统已在全国506个县区的近5.3万个基层医疗机构应用,服务6万余名基层医生,累计提供7.7亿次AI辅诊建议,规范病历2.9亿次。经该系统提醒而修正诊断的有价值病历超139万例,累计识别不合理处方数6200万,AI辅助诊断合理率提升至95%(重点地区97%),覆盖疾病数量超1680种。
图2 统一标准、规范的数据采集处理流程