人民网
人民网>>经济·科技

黄宇凯:推动供需协同 建设高质量数据集

2026年06月17日14:59 | 来源:人民网222
订阅已订阅已收藏收藏小字号

点击播报本文,约

海天瑞声CTO黄宇凯。人民网记者 翁奇羽摄
海天瑞声CTO黄宇凯。人民网记者 翁奇羽摄

人民网自贡6月17日电 (记者焦磊)6月16日,由人民网主办的2026人民数据大会在四川省自贡市举行。海天瑞声CTO黄宇凯在主旨发言中表示,高质量数据集是人工智能模型能力提升的重要基础,推进高质量数据集建设,需要从总体规划、工程化建设、质量评测和产业生态等方面协同发力。

黄宇凯表示,高质量数据集可直接用于开发和训练人工智能模型,是能有效提升模型性能的数据集合,具有规模大、质量高、安全牢、观点正、效果好、应用广等核心特点,是大模型能力的基础,也决定了模型能力的上限。

黄宇凯认为,高质量数据集建设应遵循“总体规划、分步实施,先易后难、先简后繁”的原则。他表示,数据是人工智能的关键基石,也关系企业和组织内部多部门、多系统协同,需要顶层设计和指导。

对于围绕建设路径,黄宇凯表示,高质量数据集建设需要从供给侧和需求侧两个方向发力。从供给侧看,应站在数据产品和数据服务角度,在数据生产、数据处理、数据供给等方面加大投入;从需求侧看,则应站在人工智能赋能各行业、各场景落地的角度,以应用需求牵引数据建设、释放数据价值。两者之间,需要通过数据技术、数据服务和数据生态协同供需两端,促进人工智能产业高质量发展。

可信数据空间建设与行业高质量数据集建设密切相关。对此,黄宇凯表示,围绕国家数据局推进的可信数据空间,可以从个人、企业、行业、城市、跨境等不同层面展开,根据不同可信数据空间面向的应用场景,需要数据提供方、使用方、服务方、运营方和监管方等多方共同参与。

黄宇凯介绍,在文旅行业,海天瑞声也在多个景区推动多模态伴游助手应用,利用景区文本、图片、视频等数据,结合具体应用场景打造文旅行业高质量数据集,推动导览服务从被动响应向主动服务、从通用答案向深度体验转变。在数字人领域,围绕直播带货、品牌宣传、动画游戏、文化推广等不同场景,也存在文本、声音、视频等多模态定制化数据需求。

据介绍,海天瑞声成立于2005年,长期专注于人工智能高质量数据集能力建设和产品服务,已累计形成1800多个数据集,服务全球超过1200家客户。

黄宇凯表示,结合人才资源、数据资源和工程化、规模化智能平台能力,持续构建高质量数据集,将有助于人工智能更好赋能千行百业。

(责编:杨曦、高雷)
关注公众号:人民网财经关注公众号:人民网财经

分享让更多人看到

推荐阅读
返回顶部