每日精选AI研究论文及翻译
我们继续探讨基于较小Transformer的能力,这一研究由TinyStories发起,TinyStories是一个拥有1000万参数的模型,能够生成连贯的英语。随后进行了phi-1的研究,这是一个拥有13亿参数的模型,其Python编码性能接近最先进水平。后续研究建议利用现有的大型语言模型(LLMs)生成“教科书质量”的数据,以增强学习过程,相较于传统网络数据。我们采用“只需教科书”方法,这次专注于自然语言中的常识推理,并创建了一个新的13亿参数模型,命名为phi-1.5,在自然语言任务上的表现可与大5倍的模型相媲美,并在更复杂的推理任务上超越了大多数非前沿LLMs,如小学数学和基本编码。总体而言,phi-1.5表现出许多较大LLMs的特征,包括优点,如“逐步思考”或进行一些基础的上下文学习,以及缺点,包括幻觉和潜在的有害和偏见生成,令人鼓舞的是,由于缺少网络数据,我们看到在这方面有所改善。我们开源phi-1.5,以促进对这些紧急主题的进一步研究。
尽管最近多模态大型语言模型(MM-LLMs)取得了令人振奋的进展,但它们大多受限于仅具备输入端多模态理解的局限,无法在多种模态下生成内容。由于我们人类总是通过各种模态感知世界并与人交流,开发能够接受和输出任何模态内容的任意到任意多模态语言模型对于实现人类级别的人工智能至关重要。为填补这一空白,我们提出了一种端到端通用的任意到任意多模态语言模型系统,NExT-GPT。我们将一个语言模型连接到多模态适配器和不同的扩散解码器,使NExT-GPT能够以任意组合的文本、图像、视频和音频感知输入并生成输出。通过利用现有训练良好且性能优越的编码器和解码器,NExT-GPT仅调整了少量参数(某些投影层的1%),这不仅有利于低成本训练,还便于方便地扩展到更多潜在的模态。此外,我们引入了一种模态切换指令调整(MosIT)并手动策划了一个高质量的MosIT数据集,基于该数据集,NExT-GPT具备了复杂的跨模态语义理解和内容生成能力。总的来说,我们的研究展示了构建能够建模通用模态的人工智能代理的前景,为社区中更具人类化的人工智能研究铺平了道路。
我们介绍了MADLAD-400,这是一个基于CommonCrawl的手动审核的通用领域3T令牌单语数据集,涵盖了419种语言。我们讨论了自审计MADLAD-400所揭示的限制,以及数据审计在数据集创建过程中的作用。然后,我们使用公开可用数据训练并发布了一个包含107亿参数的多语言机器翻译模型,覆盖了超过450种语言,总共2500亿令牌,并发现它与规模显著更大的模型具有竞争力,并在不同领域报告了结果。此外,我们训练了一个包含80亿参数的语言模型,并评估了少样本翻译的结果。我们将基准模型提供给研究社区。
在这项工作中,我们使用大型语言模型(LLMs)来增强和加速对P与NP问题的研究,这是理论计算机科学和数学中最重要的悬而未决问题之一。具体而言,我们提出了苏格拉底推理,这是一个促进LLMs深入思考复杂问题解决的通用框架。苏格拉底推理鼓励LLMs递归地发现、解决和整合问题,同时促进自我评估和完善。我们在P与NP问题上的试点研究表明,GPT-4成功地生成了证明框架,并在97个对话轮中进行了严谨推理,得出了“P不等于NP”的结论,与(Xu和Zhou,2023)一致。这项研究揭示了LLMs广泛解空间中的新见解,为科学中的LLMs投下了光芒。
我们以一种轻量级的方式分析了一类大型语言模型,这种分析可以在单个GPU上完成。具体来说,我们关注参数范围从125m到66b的OPT模型系列,仅依赖于前馈神经网络(FFN)神经元是否被激活。首先,我们发现网络的前部稀疏且代表许多离散特征。在这里,许多神经元(在66b模型的某些层中超过70%)是“死”的,即它们在大量多样化数据上从不被激活。与此同时,许多活跃的神经元被保留用于离散特征,并充当标记和n-gram检测器。有趣的是,它们对应的FFN更新不仅促进下一个标记候选项,这是可以预期的,而且明确专注于消除有关触发这些标记的信息,即当前输入。据我们所知,这是专门用于从残余流中删除(而不是添加)信息的机制的首个示例。随着规模的扩大,模型在某种意义上变得更加稀疏,即有更多的死神经元和标记检测器。最后,一些神经元是位置相关的:它们是否被激活在很大程度上(或完全)取决于位置,而不那么(或根本不)取决于文本数据。我们发现较小的模型具有一组神经元充当位置范围指示器,而较大的模型以一种不那么明确的方式运作。
近年来,大量文本数据对大型语言模型(LLMs)的发展产生了重要影响。这些数据通常通过抓取互联网而获得,导致预训练数据集由嘈杂的网络文本组成。迄今为止,将这些数据集精简为更高质量子集的工作一直依赖于手工制定的启发式规则过滤器。在这项工作中,我们采取更广泛的视角,探索可用于系统地衡量预训练数据质量的可扩展估计方法。我们在规模上进行了严格比较,包括简单数据质量估计器困惑度,以及更复杂和计算密集的误差L2范数和记忆估计。这些指标用于对预训练语料库进行排名和精简,随后我们比较了在这些精简数据集上训练的LLMs。令人惊讶的是,我们发现简单的困惑度技术胜过了更昂贵的评分方法。我们在仅使用原始训练数据集的30%进行训练时,改善了我们的无精简基线。我们的工作为自动筛选高质量语料库中未开发的策略奠定了基础,并暗示大多数预训练数据可以被移除而保持性能。
Transformer 已经成为深度学习中的主导模型,但其卓越性能的原因尚不明确。在这里,我们假设Transformer 的强大性能源于一种架构偏好,即面向 mesa-优化的学习过程,这是模型前向传播中运行的一种学习过程,包括以下两个步骤:(i) 内部学习目标的构建,以及 (ii) 通过优化找到相应的解决方案。为了验证这一假设,我们对一系列在简单序列建模任务上训练的自回归 Transformer 进行了逆向工程,揭示了驱动预测生成的基础基于梯度的 mesa-优化算法。此外,我们展示了学习的前向传播优化算法可以立即重新用于解决监督式少样本任务,这表明 mesa-优化可能潜在地支撑大型语言模型的上下文学习能力。最后,我们提出了一种新颖的自注意力层,即 mesa-层,明确且高效地解决了上下文中指定的优化问题。我们发现,这一层可以在合成和初步语言建模实验中提高性能,从而加强了我们的假设,即 mesa-优化是隐藏在训练后的 Transformer 权重中的重要操作。
大型语言模型(LLMs)已经证明了它们在执行与语言相关的任务方面的卓越能力。然而,由于它们巨大的内存和存储需求,它们的部署面临着重大挑战。为了解决这个问题,仅权重量化,特别是3位和4位的仅权重量化,已经成为最可行的解决方案之一。随着位数的减少,量化网格变得更宽,因此强调了上舍入和下舍入的重要性。虽然先前的研究表明,通过添加扰动来微调上舍入和下舍入可以增强某些场景中的准确性,但我们的研究受到这些扰动的精确和有限边界的驱动,只有改变舍入值的阈值才具有重要意义。因此,我们提出了一种简洁而高效的优化权重舍入任务的方法。我们的方法名为SignRound,涉及使用带符号梯度下降进行轻量级块调整,使我们能够在400步内取得出色的结果。SignRound优于最近方法的基准舍入到最近(RTN),并且在不引入额外推理开销的情况下与最近的方法竞争得令人印象深刻。源代码将很快公开在https://github.com/intel/neural-compressor。
音频-语言模型共同学习多模态文本和音频表示,实现零样本推理。模型依赖编码器创建强大的输入表示,并泛化到涵盖声音、音乐和语音等多个任务。尽管模型取得了显著的性能,但仍存在与特定任务模型之间的性能差距。本文提出了一种对比语言-音频预训练模型,该模型使用两个创新的编码器对包含460万音频-文本对的多样化集合进行预训练,实现零样本推理。为了学习音频表示,我们在22个音频任务上训练了一个音频编码器,而不是进行标准的声音事件分类训练。为了学习语言表示,我们训练了一个仅自回归解码器模型,而不是标准的仅编码器模型。然后,通过对比学习将音频和语言表示带入联合多模态空间。我们利用我们的编码器在下游任务中显著提高了性能。我们对我们的表示在26个下游任务上进行了广泛评估,这是文献中最大的评估。我们的模型在几个任务中取得了最先进的结果,引领通向通用音频表示的道路。
在将多边形网格资产嵌入逼真的神经辐射场(NeRF)体积中,以便能够以与NeRF物理一致的方式渲染它们并模拟它们的动态,这是从将NeRF整合到传统图形管线的系统角度来看尚未充分探讨的问题。本文设计了在渲染和模拟过程中网格和NeRF之间的双向耦合。我们首先回顾了网格和NeRF的光传输方程,然后将它们提炼成一种高效算法,用于沿着投射射线更新辐射和吞吐量,可以进行任意次反射。为了解决路径追踪器假定的线性颜色空间与标准NeRF使用的sRGB颜色空间之间的差异,我们使用高动态范围(HDR)图像对NeRF进行训练。我们还提出了一种估计光源并在NeRF上投射阴影的策略。最后,我们考虑了如何将混合表面-体积形式与支持布料、刚体和软体的高性能物理模拟器有效集成。完整的渲染和模拟系统可以在GPU上以交互速率运行。我们展示了混合系统方法在网格插入方面胜过其他替代方案,因为它允许从体积NeRF介质到表面进行逼真的光传输,这影响了反射/折射表面的外观和由动态场景信息驱动的漫反射表面的照明。
大型语言模型(LLMs)的学习范式目前主要分为上下文学习(ICL)和完全微调两种。每种方法都有其基于可用数据、模型大小、计算成本、易用性和最终质量的权衡,但没有一种方法能够在所有方面表现良好。在本文中,我们首先描述了ICL和微调范式,突出它们之间的自然联系。基于这些联系,我们提出了一种名为FIAT的新学习范式,将这些范式的优点融合在一起,实现了使用最大模型进行快速工程化指令和思维链推理,同时还利用类似的方法在参数高效调整的中等大小LLM上执行参数更新。我们评估了FIAT在各种多语言任务上的有效性,并观察到,在100-10,000个训练示例的规模范围内,FIAT的表现优于ICL和微调。我们希望FIAT提供了一种实用的方式,可以充分利用LLMs的潜力,而无需在学习范式之间做出艰难的选择。