每日精选AI研究论文及翻译
我们提出了Llemma,这是一个用于数学的大型语言模型。我们继续在Proof-Pile-2上对Code Llama进行预训练,这是一个包含科学论文、包含数学内容的网络数据以及数学代码的混合物,得到了Llemma。在MATH基准测试中,Llemma的表现优于所有已知的开放基准模型,以及未发布的Minerva模型套件在等参数基础上。此外,Llemma能够进行工具使用和形式化定理证明,而无需进一步微调。我们公开发布所有工件,包括70亿和340亿参数模型、Proof-Pile-2以及用于复制我们实验的代码。
目前大型语言模型(LMs)被训练来预测给定文档前缀的标记,使其能够直接执行长文本生成和提示式任务,这些任务可以简化为文档完成。现有的预训练流程通过连接随机的短文档集来训练LMs,以创建输入上下文,但先前的文档对预测下一个文档没有提供信号。相反,我们提出了上下文预训练(In-Context Pretraining)这一新方法,其中语言模型在一系列相关文档上进行预训练,从而明确鼓励它们跨越文档边界阅读和推理。我们可以通过简单地改变文档排序,使每个上下文包含相关文档,并直接应用现有的预训练流程来进行上下文预训练。然而,这个文档排序问题具有挑战性。有数十亿个文档,我们希望排序能够最大程度地增加每个文档的上下文相似性,而不重复任何数据。为此,我们引入了用于查找相关文档的近邻搜索和构建具有连贯输入上下文的图遍历算法的近似算法。我们的实验表明,上下文预训练提供了一种简单且可扩展的方法来显著提升LMs的性能:我们在需要更复杂上下文推理的任务中看到了显著的改进,包括上下文学习(+8%)、阅读理解(+15%)、对先前上下文的忠实度(+16%)、长上下文推理(+5%)和检索增强(+9%)。
大型语言模型展示了作为各种与语言相关应用的通用接口的显著能力。受此启发,我们的目标是构建一个统一的接口,用于完成许多视觉语言任务,包括图像描述、视觉问答和视觉定位等。挑战在于使用单一模型有效地执行多样的视觉语言任务,只需简单的多模态指令。为实现这一目标,我们引入了MiniGPT-v2,这是一个可视为更好处理各种视觉语言任务的统一接口的模型。我们建议在训练模型时为不同任务使用唯一标识符。这些标识符使我们的模型能够更好地轻松区分每个任务指令,并提高每个任务的模型学习效率。经过三阶段训练后,实验结果显示,与其他视觉语言通用模型相比,MiniGPT-v2在许多视觉问答和视觉定位基准上表现出色。我们的模型和代码可在https://minigpt-v2.github.io/ 上找到。
一个交互式机器人框架实现了长期任务规划,并且能够在执行过程中轻松泛化到新目标或不同任务,然而,大多数传统方法需要预定义的模块设计,这使得很难泛化到不同的目标。最近基于大型语言模型的方法可以实现更加开放式的规划,但通常需要大量提示工程或领域特定的预训练模型。为了解决这个问题,我们提出了一个简单的框架,通过语言模型实现交互式任务规划。我们的系统通过语言同时整合了高层规划和低层功能执行。我们验证了我们的系统在为未见目标生成新颖的高层指令方面的稳健性,以及通过仅替换任务指南而无需额外复杂的提示工程就能轻松适应不同任务的能力。此外,当用户发送新请求时,我们的系统能够根据新请求、任务指南和先前执行的步骤精确地重新规划。请查看我们的更多详细信息:https://wuphilipp.github.io/itp_site 和 https://youtu.be/TrKLuyv26_g。
尽管大型语言模型在广泛的下游应用中证明了其有效性,但它们经常生成存在问题或缺乏所需属性的文本。本文介绍了一种名为奖励增强解码(RAD)的文本生成过程,该过程使用一个小型单向奖励模型来鼓励语言模型生成具有特定属性的文本。具体而言,RAD使用奖励模型对生成的文本进行评分,并重新调整抽样概率以偏好高奖励标记。通过使用单向奖励模型,RAD可以缓存先前生成步骤的激活,以减少计算开销。通过在生成无毒和情感受控文本方面的实验,我们证明RAD在仅更改生成过程的方法中表现最佳,并且与涉及重新训练语言模型的最先进方法的性能相匹配。我们进一步验证RAD在非常大的语言模型上是有效的,同时带来了极小的计算开销。
我们对在生成的视频和语言空间中实现复杂长视程任务的视觉规划感兴趣,利用最近在互联网规模数据上预训练的大型生成模型的进展。为此,我们提出了视频语言规划(VLP),这是一种算法,包括树搜索过程,我们在其中训练(i)视觉语言模型作为策略和值函数,以及(ii)文本到视频模型作为动态模型。VLP接受长视程任务指令和当前图像观察作为输入,并输出提供详细多模态(视频和语言)规范的长视频计划,描述如何完成最终任务。VLP随着计算预算的增加而扩展,更多的计算时间会导致改进的视频计划,并且能够在不同的机器人领域合成长视程视频计划:从多对象重新排列到多摄像头双臂灵巧操作。生成的视频计划可以通过目标条件策略转换为真实机器人动作,这些动作是根据生成视频的每个中间帧进行条件设定的。实验证明,与先前方法相比,VLP显着提高了长视程任务的成功率,无论是在模拟还是真实机器人上(跨3个硬件平台)。
我们研究数据精炼用于自回归机器学习任务,其中输入和输出具有严格的从左到右的因果结构。更具体地,我们提出了Farzi,它将事件序列数据集总结为少量的合成序列 -- Farzi数据 -- 这些数据经过优化,以维持(甚至提高)模型性能,相较于在完整数据集上进行训练。在内部,Farzi通过(i)利用Hessian-Vector Products实现Adam优化器的高效反向模式微分;以及(ii)将高维离散事件空间分解为潜在空间,从而明显促进隐式正则化,实现了内存高效的数据精炼。从经验上看,在顺序推荐和语言建模任务中,我们能够在Farzi数据上训练最先进模型时,实现相当于完整数据性能的98-120%,而这些数据仅占原始数据集的0.1%。值得注意的是,能够用显著较少的数据训练出更好的模型,为未来大型自回归模型的设计提供了启示,并为进一步扩大模型和数据规模开辟了新机会。
窄位宽数据格式是降低现代深度学习应用的计算和存储成本的关键。本文评估了Microscaling(MX)数据格式,该格式将每个块的缩放因子与窄浮点和整数类型结合在一起用于单个元素。MX格式平衡了硬件效率、模型准确性和用户摩擦之间的竞争需求。对二十多个基准测试的实证结果表明,MX数据格式作为AI推断和训练的基准FP32的即插即用替代具有实用性且用户摩擦小。我们还展示了首次在次8位以下的权重、激活和梯度上训练生成式语言模型,准确度损失最小且无需修改训练配方。
尽管大型语言模型(LLMs)在许多自然语言任务中取得成功,但解决数学问题对它们来说仍然是一个重大挑战。在解决数学问题方面,LLMs在一次通过和N次通过之间存在着巨大的差距,这表明LLMs可能接近找到正确解决方案,激发了我们对微调方法的探索,以释放LLMs的性能。我们使用具有挑战性的MATH数据集,研究了三种微调策略:(1)解决方案微调,即微调以生成给定数学问题的详细解决方案;(2)解决方案集重新排序,其中LLM被微调为解决方案验证器/评估器,以在生成的候选解决方案集中进行选择;(3)多任务顺序微调,将解决方案生成和评估任务有效地整合在一起,以增强LLM的性能。通过这些方法,我们对一系列PaLM 2模型进行了彻底的实证研究,并发现:(1)用于微调的逐步解决方案的质量和风格可以对模型性能产生重大影响;(2)当单独使用解决方案重新排序和多数投票时,它们都可以有效地提高模型性能,但它们也可以一起使用以获得更大的性能提升;(3)将解决方案生成和评估任务顺序分开的多任务微调可以提供比解决方案微调基准更好的性能。在这些见解的指导下,我们设计了一个微调配方,使用经过微调的PaLM 2-L模型在MATH数据集上达到了约58.8%的准确率,比经过预训练的PaLM 2-L模型进行多数投票的少样本性能提高了11.2%。
我们研究了变压器大型语言模型(LLMs)在涉及抽象符号的关系推理任务中的能力。这些任务长期以来一直是神经科学文献中的研究对象,被视为编程、数学和语言推理等更复杂能力的基本构建模块。对于(i)回归任务,我们证明变压器在训练时具有泛化能力,但需要大量训练数据。对于带有符号标签的(ii)下一个标记预测任务,我们展示了一种“反比例定律”:随着嵌入维度的增加,变压器无法泛化。对于(i)和(ii)这两种情景,我们提出了微妙的变压器修改,通过每个头部添加两个可训练参数来减少所需数据量。
在自动化程序验证中,合成归纳循环不变量是至关重要的。在这项工作中,我们观察到大型语言模型(如gpt-3.5或gpt-4)能够在0-shot设置下为一类程序合成循环不变量,但需要多个样本来生成正确的不变量。这可能导致大量调用程序验证器来建立不变量。为解决这一问题,我们提出了一种用于LLMs生成结果的“重新排序”方法。我们设计了一个能够根据问题定义区分正确归纳不变量和错误尝试的排序器。该排序器被优化为对比排序器。实验结果表明,这种重新排序机制显著改善了正确不变量在生成的候选项中的排名,从而显著减少了对验证器的调用次数。