您的位置: 首页 > 实时讯息 >

AI大模型为何有超强理解能力?宁波科研人员找到了答案

0次浏览     发布时间:2025-05-12 15:44:00    

黄晁院长(中)与科研人员在宁波超算中心。

149162536……

这一长串数字,如何快速记住?大多数人,可能靠背,一个数字一个数字地背。效率低,还记不牢。

但是,有些人,记忆力强超,再长一点,也能轻轻松松搞定。

他们会将这串数字看作“1²到6²”的序列,也就是1²=1, 2²=4, 3²=9, 4²=16, 5²=25, 6²=36。这样,比死记硬背,更高效、也更牢固。

这就是理解式记忆,也是“信息压缩”能力。正是人类的这一思维模式,给科研人员带来灵感。

宁波人工智能产业研究院院长黄晁团队联合中原人工智能研究院、中国科学院计算所、鹏城实验室等,针对人工智能大模型进行压缩能力研究,创新性提出“理解即压缩”的思想,也就是大模型超强理解能力的底层逻辑之一,并提出无损数据压缩的新范式。

Nature Machine Intelligence官网上的论文截图。

本月初,这一重要研究成果以“基于大模型的无损数据压缩”为题,发表在国际学术期刊《Nature》的子刊《Nature Machine Intelligence》上。据悉,这也是宁波科研人员第一次作为第一作者在该期刊发表文章。

该期刊是人工智能领域的顶级期刊,每年仅刊登约120篇文章,最新影响因子为22,根据权威期刊评估工具JCR排名,其在“计算机科学和人工智能”及“计算机科学和跨学科应用”类别均位列前1%。

“文章审稿时间长达8个月,这次能发表,应该是‘理解即压缩’思想带来的启示。”黄晁认为。

数据压缩,其实是实现信息高效存储和传输的一项重要技术。很多人都有经历,当电脑里的视频、照片、文本容量太大时,大家会用压缩软件对文件进行压缩,再存储或者传输。

但是,这项基础技术经过80年的研究和发展,传统的基于香农信息论的压缩方法正在接近其理论极限,因此对无损压缩再改进1%都非常困难。

如何突破?

大模型的出现,为这一研究的破题,提供了新思路。

近年来,大模型凭借超强的理解和交互能力,惊艳世人。人们发现,一个大模型经过大数据训练后,就能“理解”各种文字、图像、音频、视频等,它还能像真人和你聊天。

众所周知,大模型的基础是Transformer深度学习模型架构。但是,其背后的底层逻辑到底是什么?大模型究竟是如何实现超强理解能力的?

这个答案,众说纷纭,至今尚无定论。

“我们有一个猜想,大模型的超强理解能力,就是因为它有强大的压缩能力。”黄晁说。

这个猜测,某种程度上,其实源于生活经验。

黄晁举例说:就好比我们熟知的理解式记忆,有些人学习能力、记忆能力很强,其实他们不是靠死记硬背,而是通过理解它,再抽象出一些东西,这样就能记住更多内容。比如,通过深入理解,把100个字的内容压缩成10个字,再把它还原成100个字。

“我们觉得,而且后来也验证出来,大模型其实也是如此,就是它的压缩能力强,所以理解能力也强。”黄晁说。

比如,有一段话“今天下雨,我出门带了伞,路上堵车,所以迟到了”。

如果不压缩,那么每个字用四位二进制编码,共需要88位二进制码。传统的香农压缩方法会分析里面高频字符:逗号“,”和语气词“了”各出现 2 次,低频字符:其余17个字符各出现1次。这样,编码器对“,”和“了”用一位二进制编码。其他低频字符用四位二进制编码,只需要72位二进制码,实现了压缩。

而如果用语义压缩,因为大模型经过训练有先验知识,句子里面的“伞”“车”“到”不需要编码,可以通过语义推理出来,所以这个句子只需要约60位二进制编码,实现了进一步压缩。

这直接意味着,大型模型具有革新压缩技术的潜力。为此,该团队提出一种利用大型模型来压缩数据的新方法。

黄晁介绍,这种新方法很好用,对大模型没有限制,只要是自回归生成式大模型,都可以“即插即用”,但解压时需要用同一个大模型。

最终,新技术给无损压缩带来了惊人突破。与当前主流压缩软件相比,图像压缩率降低50%;视频压缩率降低30%以上;音频压缩率降低50%;文本压缩率降低70%以上。压缩率用于描述压缩文件的效果,它是文件压缩后的大小与压缩前的大小之比,压缩率越小越好。

“研究结果验证了以上猜想,证明了理解和压缩之间存在着深刻的联系,一个大模型对数据的理解越深,它就能越有效地压缩数据,压缩效率就越高。”黄晁说。

业内人士认为,这一成果不仅有望让6G通信的带宽得到更好的利用、为数据中心节省大量存储资源,更揭示了人工智能“理解世界”的巨大潜力,可以作为评价大模型理解能力的重要工具,并为视频、生物、材料等领域大模型相关研究应用提供重要支撑。

黄晁表示,该工作得到了“科创甬江2035”重点研发计划的支持,宁波人工智能产业研究院的科研团队正基于该成果开展一系列大模型技术研究,预计将产出更多高水平人工智能科研成果和应用。

记者:成良田

编辑:施雯

相关文章