当前位置:首页>新闻热点> 正文内容

不只是统计机器!MIT研究人员重磅论文引围观:大型语言模型是"世界模型",甚至有独立的"时间和空间神经元"

admin7个月前(10-07)新闻热点11

  来源:每日经济新闻   记者 蔡鼎    编辑 兰素英    

  近年来,大型语言模型(下称LLMs)的能力不断提高,引发了各界关于它们是否只是学习了表面的统计规律,还是形成了包含数据生成过程的内在模型(即世界模型)的争论。近日,来自麻省理工(下称MIT)的研究人员公布了他们的研究,就此给出了答案。

  MIT研究人员Wes Gurnee和Max Tegmark于10月3日提交在预印本arXiv上的论文称,他们通过分析三个空间数据集(世界、美国、纽约市的地点)和三个时间数据集(历史人物、艺术作品、新闻标题)在Llama-2系列模型中的学习表征,发现了世界模型的证据。

  研究人员发现,LLMs学习了空间和时间的线性表征,并且这些表征在不同的尺度和实体类型(如城市和地标)之间是统一的。此外,作者还识别出了单个的“空间神经元”和“时间神经元”,它们可靠地编码了空间和时间坐标。论文称,现代LLMs获取了关于空间和时间这些基本维度的结构化知识,证明LLMs学习的不仅仅是表面统计规律,而是真正的世界模型。

  LLMs中存在“时间和空间神经元”

  在空间和时间数据集层面,研究人员在实验中构建了六个数据集,包含有对应空间或时间坐标的地点或事件的名称,分别涵盖了不同的空间或时间尺度,包括全球范围内的地点、美国国内的地点,以及纽约市范围内的地点;过去3000年内去世的历史人物;1950年以来发布的歌曲、电影和书籍;以及2010年至2020年发布的新闻标题。

不只是统计机器!MIT研究人员重磅论文引围观:大型语言模型是

  对于每个数据集,研究人员纳入了多种类型的实体,例如城市等人口密集场所和湖泊等自然地标,以研究不同对象类型的统一表征情况。此外,研究人员还维护并丰富了相关的元数据,以便通过更详细的分类分析数据。

  研究人员使用标准的探测技术,即在LLMs的内部激活上拟合一个简单的模型来预测与输入数据相关联的目标标签。具体来说,给定一个激活数据集A和一个目标Y,包含时间或二维经纬度坐标,作者拟合线性回归探测器得到一个线性预测器。在未提示过的数据上强大的预测性表明,LLMs中有可被线性解码出来的空间和时间信息。

  作者首先探测了Llama-2-{7B, 13B, 70B}每一层对每个空间和时间数据集的预测性能。结果显示,在所有数据集上,空间和时间特征都可以被线性探测器恢复,而且这些表达随着模型规模增大而变得更准确,并且在达到稳定状态之前,模型前半层的表达质量会平稳提高。例如,他们发现,Llama-2-70B竟然能够描绘出真实世界的文字地图。

  总结来说,MIT研究人员的研究显示:LLMs不仅仅是随机的模型——Llama-2已经是包含世界的详细模型,甚至包含独立的“时间神经元”和“空间神经元”!

  论文作者之一、MIT研究大模型优化的博士生Wes Gurnee的论文一经arXiv和推特(现X)发布,便引发广泛关注。其推文概述了论文的内容,截至发稿,已经有近300万次阅读。

  LLMs学习的空间和时间线性表征在不同实体类型间是统一的

  此外,作者还研究了Llama-2的这些空间或时间表征是否对提示词敏感,即是否可以通过上下文来引发或抑制这些事实回忆。直觉上,对于任何实体词,自回归模型都有动机产生一个适合应对任何未来可能的上下文或问题的表达。

  为了研究这一点,研究人员创建了新的激活数据集,其中在每个实体词前加上不同的提示。在所有情况下,作者都包括了一个“空”提示,只包含实体词(和一个序列开始符号)。然后,作者包括了一个询问模型回忆相关事实的提示,例如“<地点>的经纬度是多少”或“<作者>的<书籍>发布于何时”。对于美国和纽约市数据集,作者还包括了询问这个地点在美国或纽约市哪里的提示,试图消除一些地点名称的歧义(例如City Hall)。

  作为基准的模型,作者囊括了10个随机提示词作为提示。为了确定是否可以模糊主题,对于一些数据集,作者将所有实体名称全部大写。最后,对于标题数据集,作者尝试在最后一个词和在标题后面加上句号两种情况下进行测试。研究人员发现,显式地提示模型信息,或者给出消除歧义的提示,对Llama-2的输出结果几乎没有影响。然而,作者惊讶地发现随机干扰词和将实体大写会降低其输出内容的质量。唯一明显改善性能的修改是在标题后面加上句号进行探测,这表明句号被用来包含句子结束。

不只是统计机器!MIT研究人员重磅论文引围观:大型语言模型是

  Wes Gurnee和Max Tegmark在论文的“讨论”章节指出,他们提供的证据表明,LLMs学习的空间和时间线性表征在不同实体类型之间是统一的,并且对提示词具有相当敏感的反应,而且存在对这些特征高度敏感的单个神经元。由此推论,在模型和数据量足够大的情况下,LLMs仅靠下一个标记的预测就足以学习世界的文字地图。

  “我们的分析为今后的工作提出了许多有趣的问题。虽然我们表明可以线性地重建样本在空间或时间中的绝对位置,而且一些神经元使用了这些探测方向,但空间和时间表征的真正范围和结构仍不清楚。特别是,我们推测这种结构的最典型形式是离散化的分层网状结构,其中任何样本都被表示为其最近基点的线性组合。此外,LLMs可以也确实在使用这种坐标系,以线性探针(linear probe)的方式使用正确的基点方向线性组合来表示绝对位置。我们预计,随着LLMs规模的扩大,这一坐标系将通过更多的基点、更多的粒度以及更精确的实体到模型坐标的映射而得到增强。”研究人员写道。

不只是统计机器!MIT研究人员重磅论文引围观:大型语言模型是

  作者还指出,在他们的分析以及更广泛的研究中,另一个干扰因素是他们的数据集中存在许多模型本身并不知道的“实体”,从而“污染”了他们的激活数据集。

  “我们对这些了解空间和时间维度的世界模型是如何学习或使用的理解也仅仅触及了其表面。在初步的实验中,我们发现我们的模型在不依赖多步推理的情况下难以回答基本的时空关系问题,这使得因果干预分析变得复杂,但我们认为这是理解何时以及如何使用这些特征的关键步骤。”论文作者补充道。

  封面图片来源:视觉中国-VCG111421248465

扫描二维码推送至手机访问。

版权声明:本文由永康新闻网发布,如需转载请注明出处。

本文链接:http://www.115os.com/post/106821.html

“不只是统计机器!MIT研究人员重磅论文引围观:大型语言模型是"世界模型",甚至有独立的"时间和空间神经元"” 的相关文章

中粮期货:PVC阶段性利空已出尽,今年能否向上突破?

中粮期货:PVC阶段性利空已出尽,今年能否向上突破?

  市场回顾   PVC期货周主力09合约偏强运行,开盘5699元/吨,收盘5812元/吨。期货方面,上周PVC延续反弹走势,主要是受到宏观预期影响,虽然周内公布的金融数据仍然有较大改善空间,但随着OMO、MLF相继调降,政策预期再起,市场对于后市趋于乐观。   现货方面,上周中下游成交改善不大...

港股估值吸引力显现!机构:建议关注互联网和中特估等核心资产

  来源:财联社   2023年以来,在海外流动性、中美关系、国内经济弱复苏等多重影响下,港股在春节前那一波反弹的涨幅已全部回吐,中信建投最新的研究认为,港股估值再次回到极具吸引力的水平。   研报认为,当前时点压制互联网的多方面因素在边际改善,海外方面,联储加息周期三季度或将进入尾声,中美关系阶段...

方直科技(300235):该股换手率大于8%(06-21)

摘要:2023年06月21日方直科技(300235)换手率大于8%,主力资金净流出4821.52万元。 换手率大于8%说明了该股票当前处于比较活跃的局面,得到市场上资金的关注,如果在股价上涨途中,换手率5%,说明个股处于被拉升的状态,成交量相比...

光华科技(002741):6月21日技术指标出现观望信号-“黑三兵”

摘要:2023年06月21日光华科技(002741)主力资金净流入125.30万元, 占总成交额4%, 其中超大单净流入168.50万元。 资金流向数据,主力资金净流入125.30万元, 占总成交额4%,...

中粮期货:仔猪母猪价格双跌,生猪好转遥遥无期?

中粮期货:仔猪母猪价格双跌,生猪好转遥遥无期?

  仔猪母猪价格双跌   上周全国15kg仔猪均价508元/头,15kg仔猪价本周较上月回落60元/头,仔猪价格即将接近成本线,若后续跌破成本线,产能去化将进入加速度。50kg二元后备母猪162.元/头,淘汰母猪折价率下降2.56%。   仔猪价格继续下行,母猪价格继续小幅走弱,市场补栏积极性继...

国家发改委

国家发改委

快讯摘要 国家发改委:拓宽充电基础设施投资运营企业和设备厂商融资渠道国家发展改革委副秘书长欧鸿表示,《关于进一步构建高质量充电基础设施体系的指导意见》提出,加大价格支持。落实峰谷分时电价政策......

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。