
21日下午,国务院新闻办公室举行“新征程上的奋斗者”中外记者见面会,请科技领域代表围绕“弘扬科学家精神 聚力科技自立自强”与中外记者见面交流。会上,南方+记者向中国科学院计算机网络信息中心(CNIC)副主任周园春提问:近年来人工智能大模型飞速发展,数据的重要性日益凸显。您如何看待科学数据在人工智能发展中的作用?未来又面临哪些机遇与挑战?
周园春介绍,所谓科学数据,指从基础研究、应用研究、观测监测以及科学调查等获取或采集到的原始数据以及衍生的新数据,可进一步应用于新的科学研究。
他表示,在全球科技竞争进入到以数智驱动为新范式的当下,这些科学数据是我们的新型战略资源。“像种庄稼需要好种子一样,其实科技创新也需要高质量的、可信的、可溯源的数据。”

周园春介绍,相比海量的互联网数据,科学数据具有严谨的系统化观测和科学的实验,具有高可信、可溯源以及物理逻辑自洽的特点。
基于这个特点,科学数据对人工智能发展具有两重角色:
一是“稳定器”,科学数据能够为大模型提供符合自然规律的原则性知识,这样的知识能够降低大模型“胡说乱编”,也是支撑构建一个可信、安全、符合自然规律的AI基石。二是“加速器”,科学数据是驱动科研范式变革的重要引擎,从蛋白质结构预测、新材料创新,这些带有标注的高质量科学数据能够支持大模型对未来进行预测,缩短研发周期,加速研发效率。
周园春表示,从科学数据的挑战和机遇来说,当前科学数据赋能人工智能发展进入非常关键的机遇期:“既给我们带来一些挑战,也有一些机遇要抓住。”
第一个挑战是,高质量科学数据是人工智能发展的核心和基石,但是高质量科学数据难以获取。因为这样的科学数据源于高水平的大科学装置,包括长期的野外观测和调查等实现获取,获取完之后还要经过科研人员投入大量精力加工处理。反过来,大模型技术的发展其实为高质量科学数据的获取和加工提供了新技术和方法,这也实现了科学数据和人工智能的双向奔赴。
第二个挑战是,大模型可解释性面临挑战。大家都希望“知其然,更知其所以然”。科学数据产生过程中普遍缺乏唯一标识或者编码。例如,我们每个人都有身份证,数据如果没有这样一个“数字身份证”,进入到大模型训练带来的可溯源、可关联会带来比较大的挑战。
“没有这样的数字身份,数据的追踪链条,包括版权追溯、权属确定、溯源机制难以实现,使得大模型预训练时难以追踪数据来源。”周园春说。
他表示,科学数据赋能人工智能发展带来的机遇是,如果我们在数据源头产生时就赋码,在这个过程中对加工处理的数据产品也赋码,并建立前后的连接关系,就能够形成数据赋能大模型的路径。通过这样的路径构建起可追溯的链条,就能基于链条追踪人工智能在推理过程中的推理步骤,能够提高大模型或者人工智能结果的透明性和可解释性。
周园春表示,科学数据的相关工作需要“两条腿”走路:既要保持定力、静下心来,把科学数据质量做到极致,又要保持开拓创新思维,利用人工智能等新技术加速提升科学数据处理和挖掘效率。他表示,希望未来构建更多的“数据桥梁”,让科研人员不必重复去“挖井”,像喝“自来水”一样使用数据。
南方+记者 王诗堃