每日精选AI研究论文及翻译
本文讨论了移动设备上高效大型语言模型(LLMs)的增长需求,这是由于云成本和延迟问题不断增加。我们专注于设计具有不到十亿参数的高质量LLMs,这是移动部署的实际选择。与普遍认为数据和参数数量在确定模型质量方面起着关键作用的观点相反,我们的研究强调了对于小于十亿规模LLMs,模型架构的重要性。利用深度和瘦身架构,结合嵌入共享和分组查询注意机制,我们建立了一个强大的基准网络,称为MobileLLM,比之前的125M/350M最先进模型分别提高了2.7%/4.3%的准确度。此外,我们提出了一种立即的分块权重共享方法,不增加模型大小,仅有轻微的延迟开销。由此产生的模型,称为MobileLLM-LS,比MobileLLM 125M/350M进一步提高了0.7%/0.8%的准确度。此外,MobileLLM模型系列在聊天基准测试中相对于之前的小于十亿模型显示出显著改进,并在API调用任务中表现出与LLaMA-v2 7B接近的正确性,突显了小型模型在常见设备上使用情况下的能力。
我们介绍了Genie,这是第一个通过无监督方式从未标记的互联网视频中训练的生成式交互环境。该模型可以被提示生成通过文本、合成图像、照片甚至草图描述的无穷多种可操作动作的虚拟世界。拥有110亿参数的Genie可以被视为基础世界模型。它由时空视频标记器、自回归动力学模型以及简单且可扩展的潜在动作模型组成。Genie使用户能够在生成的环境中逐帧操作,尽管在训练过程中没有任何地面真实动作标签或其他通常在世界模型文献中找到的领域特定要求。此外,所得到的学习潜在动作空间有助于训练代理程序模仿来自未见视频的行为,为未来训练通用代理程序打开了道路。
本文研究了LLM生成文本的放射性,即是否可能检测到这样的输入被用作训练数据。传统方法如成员推断可以在一定程度上准确地进行这种检测。我们展示了带有水印的训练数据留下的痕迹更容易检测,比成员推断更可靠。我们将污染水平与水印的鲁棒性、在训练集中的比例以及微调过程联系起来。我们特别展示了,即使只有5%的训练文本带有水印,基于带水印的合成指令进行训练也可以被高置信度地检测到(p值<1e-5)。因此,LLM水印技术,最初设计用于检测机器生成文本,使得能够轻松识别是否将带水印的LLM的输出用于微调另一个LLM。
最近的研究方法表明,大型语言模型(LLMs)在被鼓励先解决主任务的子任务时,能够更好地解决推理任务。在本文中,我们设计了一种类似的策略,将推理任务分解为问题分解阶段和问题解决阶段,并展示了这种策略能够胜过单阶段解决方案。此外,我们假设相比于需要大量领域知识的问题解决阶段,问题分解阶段更容易被蒸馏为较小的模型,因为前者只需要学习一般的问题解决策略。我们提出了蒸馏这两种能力的方法,并评估了它们对推理结果和推理成本的影响。我们发现,我们可以蒸馏问题分解阶段,并同时在任务、数据集和模型之间取得良好的泛化。然而,要蒸馏问题解决能力却更困难,而且结果蒸馏模型在泛化方面表现不佳。这些结果表明,通过将较小的、蒸馏的问题分解模型与问题解决LLMs结合使用,我们可以实现具有成本效益的推理和局部适应。
在这项工作中,我们展示了神经网络量化的大小与准确性之间的权衡可以通过增加量化维度来显著改善。我们提出了GPTVQ方法,这是一种新的快速后训练向量量化(VQ)方法,可很好地扩展到大型语言模型(LLMs)。我们的方法交替进行一列或多列的量化,并更新其余未量化权重,利用每层输出重构均方误差的Hessian信息。量化码书使用高效的数据感知版本的EM算法进行初始化。然后通过整数量化和基于SVD的压缩进一步压缩更新码书。GPTVQ在诸如Llama-v2和Mistral等各种LLMs上建立了新的大小与准确性权衡的最新技术水平。此外,我们的方法高效:在单个H100上,处理一个Llamav2-70B模型需要3至11小时不等,具体取决于量化设置。最后,通过在移动CPU上进行设备内定时进行VQ解压缩,我们展示了与使用4位整数格式相比,VQ可以带来改善的延迟。
自注意力是大型语言模型(LLMs)的一个重要组成部分,但对于长序列来说,它是推理延迟的一个重要来源。在多租户LLMs服务场景中,通过使用多个LLM请求在前缀中共享系统提示的概率,可以优化自注意力的计算和内存操作成本。在本文中,我们介绍了ChunkAttention,这是一个具有前缀感知能力的自注意力模块,可以在运行时检测多个请求中匹配的提示前缀,并共享它们的键/值张量以改善KV缓存的内存利用率。这是通过将整体的键/值张量分解为较小的块,并将它们结构化到辅助前缀树中来实现的。因此,在基于前缀树的KV缓存之上,我们设计了一个高效的自注意力内核,其中实现了一个两阶段分区算法,以改善在存在共享系统提示时的自注意力计算中的数据局部性。实验证明,与最先进的实现相比,ChunkAttention可以将自注意力内核的速度提高3.2-4.8倍,系统提示的长度范围从1024到4096不等。
本文探讨了扩展输入长度对大型语言模型(LLMs)能力的影响。尽管LLMs在最近取得了进展,但它们在不同输入长度下的性能一致性尚不明确。我们通过引入一种新颖的问答推理框架来研究这一方面,该框架专门设计用于评估输入长度的影响。我们通过使用同一样本的多个版本,每个版本都添加了不同长度、类型和位置的填充,来分离输入长度的影响。我们的研究结果显示,在远低于技术最大值的输入长度下,LLMs的推理性能出现明显下降。我们表明,尽管在不同程度上,这种下降趋势在我们数据集的每个版本中都存在。此外,我们的研究揭示了传统的困惑度指标与LLMs在长输入推理任务中的性能之间没有相关性。我们分析了我们的结果,并确定了可能作为未来研究有用指导的失败模式,潜在地为解决LLMs中观察到的限制提供策略。
由大型语言模型(LLMs)驱动的自主代理引起了广泛的研究关注。然而,要充分利用LLMs在基于代理的任务中的潜力存在固有挑战,因为不同数据源的异质性特质包含了多轮轨迹。在本文中,我们介绍AgentOhana作为应对这些挑战的综合解决方案。AgentOhana汇总了来自不同环境的代理轨迹,涵盖了各种场景。它精心将这些轨迹标准化和统一为一致的格式,简化了用于代理训练的通用数据加载器的创建。利用数据统一化,我们的训练流程在不同数据源之间保持平衡,并在数据集分区和模型训练过程中保持设备之间的独立随机性。此外,我们提出了xLAM-v0.1,一个专为AI代理量身定制的大动作模型,展现出在各种基准测试中的出色性能。
有条件的人体动作生成是一个重要课题,在虚拟现实、游戏和机器人领域有许多应用。尽管先前的研究侧重于通过文本、音乐或场景生成引导的动作,但通常导致短时段内的孤立动作。相反,我们致力于生成由一系列不同文本描述引导的长、连续序列。在这种情况下,我们介绍了FlowMDM,这是第一个基于扩散的模型,可以生成无需任何后处理或冗余去噪步骤的无缝人体动作组合(HMC)。为此,我们引入了混合位置编码,这是一种利用绝对和相对位置编码的技术,用于去噪链中。更具体地说,全局动作一致性在绝对阶段得以恢复,而在相对阶段构建了平滑且逼真的过渡。因此,我们在 Babel 和 HumanML3D 数据集上在准确性、逼真度和平滑度方面取得了最先进的结果。FlowMDM 在训练时每个动作序列仅使用单个描述时表现出色,这要归功于其姿势中心交叉注意力机制,使其在推断时对不同文本描述具有鲁棒性。最后,为了解决现有 HMC 指标的局限性,我们提出了两个新指标:峰值加速度变化率和加速度变化率曲线下的面积,用于检测突变过渡。
随着对大型语言模型(LLMs)有效利用工具和外部应用程序接口(APIs)以规划和完成任务的需求不断增长。因此,人们对能够获取涉及工具/API调用的足够数量的训练和测试数据的方法表现出极大兴趣。针对解决这一挑战,出现了两条主要的研究方向。第一条侧重于合成数据生成技术,而第二条涉及策划与任务相关的数据集,这些数据集可以转化为基于API/工具的任务。本文聚焦于识别、策划和转化现有数据集的任务,并引入了API-BLEND,一个用于训练和系统测试工具增强型LLMs的大型语料库。这些数据集模拟涉及API任务的现实场景,如API/工具检测、槽填充以及检测到的API的排序。我们展示了API-BLEND数据集在训练和基准测试方面的实用性。