•   炒股,就在一键之间,智慧投资,让财富迅速增长!跟随市场,赢在未来,炒股,让你成为财富的掌舵者!
  •   炒股不仅是追求短期收益的工具,更是一种智慧的投资方式。跟随市场的变化,调整自己的投资策略,实现财富的稳步增长。

专业网上配资:炒股配资官网查询-谁来喂饱中国的AI?公共数据开放的关键一跃

摘要:   当你在政务App上咨询“医保报销要多久到账”,或在医疗智能体里描述症状时,后台的人工智能(以下简称AI)并不是天生的“百事通”。它之所以能理解你的...
代码 名称 当前价 涨跌幅 最高价 最低价 成交量(万)

  当你在政务App上咨询“医保报销要多久到账” ,或在医疗智能体里描述症状时,后台的人工智能(以下简称AI)并不是天生的“百事通 ” 。它之所以能理解你的问题、给出自然的回答,靠的是成千上万条语料样本——来自政策文件 、医疗记录、热线对话、网络评论等真实数据。这些数据的集合有一个共同的名字:高质量数据集。它总是甘居幕后 ,却正成为智能时代最重要的数据基础设施之一 。为什么高质量数据集的供给对于AI的发展如此重要?我国的高质量数据集建设 、共享和开放如何破局呢?

  AI学习的中文“教材”稀缺 ,共享开放亟待破局

  一个AI模型能有多聪明,取决于它“读”过多少好书 。高质量数据集是AI大模型训练 、推理和验证的关键基础,是AI学习的“教材 ” ,是AI能“懂人话 ”并且“说人话”的前提。如果教材内容错误、混乱或不完整,AI的成长就会走弯路。

  同时,AI大模型训练不仅需要庞大的数据量 ,更强调跨语种、跨模态 、跨领域的数据多样性 。据AI应用社区 Hugging Face统计,中文开源数据集数量仅占全部开源数据集的8%左右。我国大部分AI模型的训练数据集依赖外国开放数据,这种不对称性不仅带来语义偏倚与文化误读风险 ,也制约了本地化场景下AI系统的泛化能力。中文语料数据供给不足,AI大模型只能“饿着肚子”,在贫瘠的通用语料里苦苦训练 。

  另外 ,当前中文互联网上充斥着用AI生成的低质量中文语料,其中大量包含事实错误、逻辑混乱、语法不通 、陈词滥调等问题。“垃圾进,垃圾出 ” ,用这些数据再去投喂AI ,可能带来中文AI模型退化的风险。就好像用一份复印件反复复印,不断重复这个过程之后,最终得到的复印件可能已经模糊不清、错误百出 。

  鉴于高质量数据集供给的重要性 ,我国连续推出战略部署,明确将其纳入政策顶层设计。刚刚发布的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》,要求“强化算力、算法 、数据等高效供给”。前不久发布的《国务院关于深入实施“人工智能+”行动的意见》也明确要求:“以应用为导向 ,持续加强人工智能高质量数据集建设 ” 。然而,当前我国高质量数据集的建设、共享与开放仍面临不少的困难和挑战。

  AI数据集的数据源复杂多样,整体呈现分散化状态 ,存在边界模糊、家底不清 、权责不明、标准不一、统筹不力等问题。政府 、高校 、科研机构和企业之间数据壁垒突出,数据被长期被“锁”在各自的“数据孤岛”里 。高质量数据集的内部共享和对外开放都缺乏统一的数据平台与协调机制,难以形成高质量、大规模数据集共建共享格局 。数据资源建设主要依靠科研任务驱动 ,在资金、声誉 、成果转化方面的激励不足,责任与收益不对等问题凸显,各方推动数据共享开放的积极性有待提升。

  公共数据开放:破解数据供给瓶颈的关键路径

  要加强AI高质量数据集供给 ,公共数据开放是一条亟待开拓的路径。公共数据 ,取之于民、用之于民 。政府和其他公共管理与服务机构掌握的公共数据体量大、价值高 、类型广,权威性与可信度高,应当优先向社会开放用于AI及相关产业的发展。利用开放的公共数据建设高质量数据集 ,将有望成为AI时代的智能底座,助力形成政府治理提质、市场创新加速、社会效益倍增的多赢局面。

  首先,公共数据中包含的政策文书 、法律法规、社交媒体、新闻语料等数据 ,经过模型处理后可以提升增强政府决策的智能化与科学化水平,促进政务服务的精准化与个性化,并推动开放治理与公众参与 。

  其次 ,公共数据向社会开放,可以通过规模效应提高数据利用效率,降低创新的边际成本 ,激发市场主体的创新积极性,促进AI相关的技术突破与产业融合。

  第三,公共数据向社会开放还可以打破大机构垄断数据的局面 ,有效缓解社会信息不对称问题 ,使得不同规模的企业 、科研机构与个人可以公平地获得数据资源,弥合数字鸿沟,促进数字包容。

  目前 ,国际上已经有大量基于公共数据开发的高质量数据集向开发者开放,并形成了多样化的建设模式和治理机制,产生了丰富的应用成果 。我国上海、杭州等城市的公共数据开放平台 ,也尝试上线了一批用于AI训练的高质量数据集。不过,我国大部分地方还没有启动这项工作。笔者在调研中发现,这项工作的开展面临着不懂、不愿 、不能 、不敢的困境 。

  一是“不懂 ”。很多领导干部和公务员仍把数据看作工作中的副产品 ,尚未意识到,自己每天处理的审批文件、热线语音、交通流量等等,其实都是AI学习的最好教材。对AI相关概念的理解不清晰 、不统一 ,一知半解的状况比较普遍 。

  二是“不愿” 。高质量数据集建设需要投入大量人力物力,标注、清洗、整理都极为繁琐。缺乏相应的激励机制,就容易出现“多一事不如少一事”的心理。

  三是“不能 ” 。高质量数据集建设在数据编目 、预处理、标注、更新 、分布校准和多模态数据处理等方面都有一定的技术门槛 ,而这些数据集的共享开放缺乏统一的数据标准、术语字典、标注体系 ,导致数据难以互通。一些部门即便想做,也缺少技术与人力的支撑。

  四是“不敢” 。数据安全和隐私保护是最大的顾虑。公共数据往往涉及个人信息和公共安全,稍有不慎就可能引发风险。因此 ,许多单位宁愿把数据“锁在柜子里”,也不敢对外开放 。

  四步入手破解公共数据开放瓶颈问题

  上述四个“不 ”,正是当前公共数据开放的“卡脖子 ”问题。要让公共数据开放赋能高质量数据集建设 ,在观念 、制度和技术层面都需要跨越鸿沟。

  第一,认知升级,让数据供给成为共识 。许多地方在推进AI项目时 ,往往注重算法创新和算力建设,却忽略了数据资源供给。要通过培训、宣传以及试点示范,让各级各部门各单位都认识到开放数据的社会效益和经济价值。

  第二 ,机制创新,让“数据愿意流动” 。公共数据开放需要利益与责任的平衡,应建立明确的收益分配机制和供给激励机制 。我国多地正在探索的公共数据授权运营 ,就是解决高效流通与合规使用、兼顾效率和公平的有益探索。

  第三 ,技术支撑,让“数据能流动”。在技术层面,要在城市层面建立统一的数据目录体系 ,普及数据采集 、清洗 、标注、脱敏、合成 、溯源等工具,建立统一的标签体系与术语库,消除数据流动的技术梗阻 。

  第四 ,安全护航,不仅“用得好 ”,还要“用得安”。数据安全与开放并不矛盾 ,一方面要引入先进的数据脱敏和内容安全技术,加强政务智能体合规与伦理研究,开展伦理审查和安全评估;另一方面可以探索建立数据“避风港” ,构建鼓励创新、包容审慎的数据治理环境。

  小结

  如果把AI的发展比作一次长跑,那么我们目前所处的位置,大体是“起跑后的加速阶段 ”——模型架构爆发、算力扩张迅速 、应用场景繁荣 。但若要走向“质的跃迁” ,必须打破数据供给的瓶颈。

  共享开放的高质量数据集是AI时代的数据基础设施。公共数据应当率先成为AI高质量数据集的“底料”——在开放、透明、安全的制度框架下 ,点燃创新的火种 。让公共数据助力AI发展,让AI发展反哺公共利益 、实现公共价值。当公共数据流动起来,AI的未来也将变得更加可信、开放与包容。

  (作者王翔为复旦大学数字与移动治理实验室研究员)

(文章来源:澎湃新闻)

你可能想看:
分享到:

发表评论

评论列表

还没有评论,快来说点什么吧~