每日精选AI研究论文及翻译
最近开源大型语言模型(LLMs)的激增,如LLaMA、Falcon和Mistral,为人工智能从业者和研究人员提供了多样选择。然而,大多数LLMs仅发布了部分工件,如最终模型权重或推理代码,技术报告日益限制其范围,仅涉及高级设计选择和表面统计数据。这些选择阻碍了该领域的进展,降低了对LLMs训练过程的透明度,迫使团队重新发现训练过程中的许多细节。我们提出LLM360,这是一个全面开源LLMs的倡议,主张将所有训练代码和数据、模型检查点以及中间结果提供给社区。LLM360的目标是通过使端到端的LLMs训练过程对每个人透明和可重现,支持开放和协作的人工智能研究。作为LLM360的第一步,我们发布了两个从头开始预训练的7B参数LLMs,分别是Amber和CrystalCoder,包括它们的训练代码、数据、中间检查点和分析(网址为https://www.llm360.ai)。我们致力于通过这一开源努力不断拓展LLMs的边界。更大规模和更强大的模型正在制作中,并将在未来发布。
在人类生成的数据上对语言模型(LMs)进行微调仍然是一种普遍的做法。然而,这些模型的性能通常受限于高质量人类数据的数量和多样性。本文探讨了在具有标量反馈的任务上是否可以超越人类数据,例如在数学问题上可以验证正确性。为此,我们研究了一种基于期望最大化的简单自训练方法,称为ReST^{EM},其中我们(1)从模型中生成样本并使用二进制反馈进行过滤,(2)在这些样本上对模型进行微调,然后(3)重复这个过程几次。在使用PaLM-2模型对高级MATH推理和APPS编码基准进行测试时,我们发现ReST^{EM}随着模型规模的增大而扩展,并且明显优于仅在人类数据上进行微调。总的来说,我们的研究结果表明,带有反馈的自训练可以大幅减少对人类生成数据的依赖。
我们提出了一种基于Transformer的方法W.A.L.T,通过扩散建模实现逼真视频生成。我们的方法有两个关键设计决策。首先,我们使用因果编码器来联合压缩图像和视频到统一的潜在空间,实现跨模态的训练和生成。其次,为了记忆和训练效率,我们使用了一个专为联合空间和时空生成建模定制的窗口注意力架构。这些设计决策共同使我们能够在已建立的视频(UCF-101和Kinetics-600)和图像(ImageNet)生成基准上取得最先进的性能,而无需使用分类器的指导。最后,我们还训练了一个由三个模型级联组成的模型,用于文本到视频生成任务,包括基础潜在视频扩散模型和两个视频超分辨率扩散模型,以在每秒8帧的情况下生成分辨率为512乘以896的视频。
最近,通过利用2D和3D扩散模型,从文本提示中创建3D内容展示出了显著的进展。虽然3D扩散模型确保了出色的多视角一致性,但它们生成高质量和多样化的3D资源的能力受到了有限的3D数据的限制。相比之下,2D扩散模型找到了一种提炼方法,可以在没有任何3D数据的情况下实现出色的泛化和丰富的细节。然而,2D提升方法存在固有的视角不可知模糊性,从而导致严重的多面人问题,即文本提示未能提供足够的指导以学习连贯的3D结果。我们研究如何充分利用易于获取的粗糙3D知识来增强提示,并引导2D提升优化以进行细化,而不是重新训练昂贵的视角感知模型。在本文中,我们提出了Sherpa3D,这是一个新的文本到3D框架,同时实现了高保真度、泛化性和几何一致性。具体来说,我们设计了一对指导策略,这些策略源自3D扩散模型生成的粗糙3D先验:用于几何保真度的结构指导和用于3D连贯性的语义指导。通过这两种指导,2D扩散模型丰富了3D内容,产生了多样化和高质量的结果。大量实验证明,我们的Sherpa3D在质量和3D一致性方面优于最先进的文本到3D方法。
现代大型视觉-语言模型(LVLMs)享有相同的视觉词汇--CLIP,可以涵盖大多数常见的视觉任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,特别是在非英语场景中,CLIP风格的词汇可能在标记视觉知识方面效率低下,甚至遇到词汇外问题。因此,我们提出了Vary,一种有效且高效的方法来扩展LVLMs的视觉词汇。Vary的流程自然分为两个部分:新视觉词汇的生成和整合。在第一阶段,我们设计了一个词汇网络以及一个小型仅解码器的Transformer,通过自回归生成所需的词汇。接下来,我们通过将新词汇与原始词汇(CLIP)合并来扩展基本视觉词汇,使LVLMs能够快速获取新功能。与流行的BLIP-2、MiniGPT4和LLaVA相比,Vary在保持其基本功能的同时,享有更优秀的细粒度感知和理解能力。具体而言,Vary在新文档解析功能(OCR或Markdown转换)方面表现出色,在DocVQA中实现78.2%的ANLS,在MMVet中为36.2%。我们的代码将在主页上公开提供。
大型语言模型(LLMs)具有出色的能力,仅凭几个示例就能解决新任务,但它们需要访问正确的工具。检索增强生成(RAG)通过检索给定任务的相关工具列表来解决这一问题。然而,RAG的工具检索步骤要求查询中包含所有必要的信息。这是一个限制,因为语义搜索,被广泛采纳的工具检索方法,在查询不完整或缺乏上下文时可能失败。为了解决这一限制,我们提出了RAG的上下文调整,它采用智能上下文检索系统来获取改进工具检索和计划生成的相关信息。我们的轻量级上下文检索模型使用数字、分类和习惯使用信号来检索和排名上下文项。我们的实证结果表明,上下文调整显著增强了语义搜索,在上下文检索和工具检索任务的Recall@K分别实现了3.5倍和1.5倍的改进,并导致基于LLM的计划器准确度提高了11.6%。此外,我们展示了我们提出的轻量级模型使用Reciprocal Rank Fusion(RRF)与LambdaMART优于基于GPT-4的检索。此外,我们观察到在工具检索后,计划生成时的上下文增强减少了虚构现象。
我们报告了Alter3的开发,这是一款能够利用大型语言模型(LLM),特别是GPT-4,生成自发动作的人形机器人。通过将GPT-4集成到我们的专有安卓机器人Alter3中,我们实现了这一成就,从而有效地将LLM与Alter的身体运动结合起来。通常,低级机器人控制是依赖硬件的,并且超出了LLM语料库的范围,这给基于LLM的直接机器人控制带来了挑战。然而,在像Alter3这样的人形机器人的情况下,通过将人类行为的语言表达映射到机器人的身体上,直接控制是可行的,这是通过程序代码实现的。值得注意的是,这种方法使Alter3能够采取各种姿势,比如“自拍”姿势或“假装成鬼”,并且可以随时间生成动作序列,而无需为每个身体部位进行明确编程。这展示了机器人的零-shot学习能力。此外,口头反馈可以调整姿势,无需进行微调。Alter3生成动作的视频可在https://tnoinkwms.github.io/ALTER-LLM/ 上观看。
潜在扩散模型(LDM)捕捉了隐变量随时间的动态演变,将模式和多模态融合在一个生成系统中。尽管LDM在各种应用中表现出色,例如文本到图像生成,借助强大的文本编码器和变分自编码器,但在边缘设备上部署大型生成模型的迫切需求促使人们寻找更紧凑而有效的替代方案。后训练量化(PTQ)是一种压缩深度学习模型操作尺寸的方法,但在应用于LDM时会遇到由于时间和结构复杂性而带来的挑战。本研究提出了一种量化策略,有效地量化LDM,利用信噪比(SQNR)作为评估的关键指标。通过将量化差异视为相对噪声,并识别模型的敏感部分,我们提出了一种包含全局和局部策略的高效量化方法。全局量化过程通过在敏感块上启动更高精度的量化来减轻相对量化噪声,而局部处理则解决了量化敏感和时间敏感模块的具体挑战。我们的实验结果表明,实施全局和局部处理可以实现高效且有效的潜在扩散模型的后训练量化(PTQ)。
我们介绍了Llama Guard,这是一个基于LLM的输入输出保护模型,专为人工智能对话使用场景而设计。我们的模型融合了安全风险分类法,这是一种有价值的工具,用于对LLM提示中发现的一组特定安全风险进行分类(即提示分类)。这种分类法还在对LLM生成的回应进行分类时起着关键作用,我们称之为回应分类。为了进行提示和回应分类,我们精心收集了一个高质量的数据集。Llama Guard是一个Llama2-7b模型,经过我们收集的数据集进行了指令微调,尽管数据量较小,但在现有基准测试中表现出色,如OpenAI Moderation Evaluation数据集和ToxicChat,其性能与当前可用的内容管理工具相匹敌甚至超越。Llama Guard作为一个语言模型,执行多类分类并生成二进制决策分数。此外,Llama Guard的指令微调允许定制任务和调整输出格式。这一特性增强了模型的功能,例如使得能够调整分类法类别以符合特定用例,并促进零样本或少样本提示与输入中的不同分类法。我们提供Llama Guard模型权重,并鼓励研究人员进一步开发和调整,以满足人工智能安全领域不断发展的需求。
预训练的大型语言模型(LLMs)需要微调以提高其对自然语言指令的响应性。联邦学习(FL)提供了一种利用终端设备上丰富数据进行微调的方法,同时又不会损害数据隐私。大多数现有的用于LLMs的联邦微调方法依赖于参数高效的微调技术,这些技术可能无法达到完全参数调整可能达到的性能高度。然而,与完全参数调整相关的通信开销对服务器和客户端来说都是难以承受的。本研究介绍了FedKSeed,这是一种采用零阶优化(ZOO)与一组随机种子的新方法。它能够在设备上直接对十亿级LLMs进行联邦完全参数调整。我们的方法显著减少了服务器和客户端之间的传输需求,仅需传输少量标量梯度和随机种子,总共仅为几千字节。在此基础上,我们开发了一种评估ZOO扰动在FL中重要性的策略,允许进行概率差异化的种子抽样。这样就可以优先考虑对模型准确性影响更大的扰动。通过六种不同的LLMs、数据集和数据分区的实验,我们的方法证明在通信效率和新任务泛化方面优于现有的联邦LLM微调方法。
已经提出了各种方法来利用大型语言模型(LLMs)进行自动驾驶。一种使用LLMs进行自动驾驶的策略涉及将周围物体作为文本提示输入到LLMs中,同时提供它们的坐标和速度信息,然后输出车辆的后续移动。在利用LLMs进行这种目的时,空间识别和规划等能力是至关重要的。特别是,需要两个基础能力:(1)空间感知决策制定,即从坐标信息中识别空间并做出避免碰撞的决策,以及(2)遵守交通规则的能力。然而,目前尚未对不同类型的LLMs如何准确处理这些问题进行定量研究。在本研究中,我们定量评估了LLMs在自动驾驶背景下的这两种能力。此外,为了对在实际车辆中实现这些能力的可行性进行概念验证,我们开发了一个利用LLMs驾驶车辆的系统。
Captum是PyTorch中用于模型可解释性的综合库,提供了一系列方法,这些方法源自可解释性文献,旨在增强用户对PyTorch模型的理解。在本文中,我们介绍了Captum中的新功能,专门设计用于分析生成式语言模型的行为。我们概述了可用功能,并提供了示例应用,展示了这些功能对于理解生成式语言模型中学习到的关联的潜力。
大型语言模型(LLMs)展示了强大的文本生成能力。然而,对于十亿级模型来说,要实现在给定提示或指令下的最佳结果可能具有挑战性。此外,不良行为,如毒性或幻觉,可能会出现。虽然更大的模型(例如ChatGPT)可能表现出在减轻这些问题方面的实力,但仍无法完全保证防止不良行为的发生。在这项工作中,我们提出将文本生成形式化为未来约束生成问题,以最小化不良行为并强制执行对指令的忠实。使用LLMs完成未来约束满足度的估计指导文本生成过程。我们的广泛实验表明了所提方法在三个不同的文本生成任务中的有效性:关键词约束生成(Lin等,2020)、毒性减少(Gehman等,2020)以及问答中的事实正确性(Gao等,2023)。
本文从经验角度研究了多任务学习的优化动态,特别关注那些管理具有显著数据不平衡的任务集合的动态。我们提出了一种简单而有效的方法,即在高资源任务上进行预训练,然后在高/低资源任务的混合上进行微调。我们对这种方法的好处进行了彻底的经验研究和分析,表明相对于标准静态加权的性能折衷曲线,它实现了一致的改进。我们分析了在哪些数据情况下这种方法是适用的,并在神经机器翻译(NMT)和多语言语言建模中通过经验展示了它的改进。
MEGA是一种最近基于Transformer的架构,它利用线性循环算子,其基于FFT的并行计算复杂度随着序列长度L的增加按O(LlogL)的速度扩展。我们在其方法的基础上,通过将线性循环替换为一种特殊的时间卷积网络,实现了更大的感受野尺寸和更浅的网络结构,将计算复杂度降低至O(L)。由此产生的模型被称为TCNCA,即带有分块注意力的时间卷积网络。我们在EnWik8语言建模、长距离竞技(LRA)序列分类以及合成推理基准联想回忆上评估了TCNCA。在EnWik8上,TCNCA的性能优于MEGA,在训练过程中的前向/后向传播速度比为1.37倍/1.24倍,损失更低。TCNCA中使用的扩张卷积在GPU上始终比基于FFT的并行循环更快,使其成为处理非常大序列长度的可扩展候选方案:对于长达131k的序列,它们的前向/后向传播速度最高可提高7.07倍/2.86倍。在LRA方面,TCNCA在推断过程中平均实现了1.28倍的加速,同时保持与MEGA相似的准确性。在联想回忆方面,我们发现,即使是TCNCA的简化版本,没有过多的乘法和加法交互,仍然在一系列序列长度和词汇量上优于或与MEGA竞争。