每日精选AI研究论文及翻译
我们提出了LongLoRA,这是一种高效的微调方法,可以扩展预训练大型语言模型(LLMs)的上下文大小,同时具有有限的计算成本。通常,使用较长的上下文大小训练LLMs在计算上是昂贵的,需要大量的训练时间和GPU资源。例如,对长度为8192的上下文进行训练需要自注意力层中的计算成本增加16倍,相比于长度为2048的情况。在本文中,我们从两个方面加快了LLMs上下文扩展的速度。一方面,虽然推理过程中需要密集的全局注意力,但通过稀疏的局部注意力来对模型进行微调可以实现高效和有效。提出的短移动注意力有效地实现了上下文扩展,实现了与使用原始注意力微调相似性能的显著计算节省。特别是,这可以在训练中仅用两行代码实现,而在推理中是可选的。另一方面,我们重新审视了用于上下文扩展的参数高效微调策略。值得注意的是,我们发现LoRA用于上下文扩展在可训练的嵌入和归一化前提下效果良好。LongLoRA在7B/13B到70B的LLaMA2模型上展示了强大的实证结果。LongLoRA将LLaMA2 7B从4k上下文扩展到100k,或将LLaMA2 70B扩展到32k,仅使用一台8x A100机器。LongLoRA扩展了模型的上下文,同时保留了其原始架构,并且与大多数现有技术兼容,如FlashAttention-2。此外,为了使LongLoRA更实用,我们收集了一个名为LongQA的数据集,用于监督微调。该数据集包含超过3k个长上下文问答对。
Transformer 首次出现在自然语言处理领域,后来迁移到计算机视觉领域,在那里展现出出色的视觉任务表现。然而,最近,保留网络(RetNet)作为一种架构出现,具有取代 Transformer 的潜力,在自然语言处理社区引起了广泛关注。因此,我们提出了一个问题,即将 RetNet 的思想转移到视觉领域是否也能为视觉任务带来出色的表现。为了解决这个问题,我们将 RetNet 和 Transformer 结合起来提出了 RMT。受 RetNet 启发,RMT 在视觉主干中引入了显式衰减,将与空间距离相关的先验知识引入到视觉模型中。这种与距离相关的空间先验允许明确控制每个标记可以关注的标记范围。此外,为了减少全局建模的计算成本,我们沿图像的两个坐标轴分解了这个建模过程。大量实验表明,我们的 RMT 在各种计算机视觉任务中表现出色。例如,RMT 在 ImageNet-1k 上仅使用 4.5G FLOPs 就实现了 84.1% 的 Top1-acc。据我们所知,在所有模型中,当模型大小相似且采用相同策略训练时,RMT 实现了最高的 Top1-acc。此外,RMT 在目标检测、实例分割和语义分割等下游任务中明显优于现有的视觉主干。我们的工作仍在进行中。
生成式大型语言模型(LLM)在各种自然语言处理任务中取得了显著进展。然而,在翻译任务中,尤其是那些具有中等模型规模(即7B或13B参数)的模型,这些进展并未得到体现,仍然落后于传统的监督式编码-解码翻译模型。先前的研究尝试改进这些中等LLM的翻译能力,但收效有限。在本研究中,我们提出了一种新颖的LLM微调方法,专门针对翻译任务设计,消除了传统翻译模型通常依赖的大量平行数据的需求。我们的方法包括两个微调阶段:首先在单语数据上进行初始微调,然后在一小部分高质量平行数据上进行后续微调。我们将通过这种策略开发的LLM称为基于先进语言模型的翻译器(ALMA)。基于我们的基础模型LLaMA-2,我们的结果表明,该模型在WMT'21(2个方向)和WMT'22(8个方向)测试数据集中的10个翻译方向上,相比零翻译性能,平均BLEU和COMET分别提高了12以上。性能显著优于所有先前的工作,甚至优于NLLB-54B模型和GPT-3.5-text-davinci-003,而仅具有7B或13B参数。这种方法为机器翻译中的一种新型训练范式奠定了基础。
随着大型语言模型(LLMs)在各种应用中的广泛使用,研究人们如何在现实场景中与其互动变得愈发重要。本文介绍了 LMSYS-Chat-1M,一个包含一百万个与 25 个最先进的LLMs 进行的真实对话的大规模数据集。该数据集是从我们的Vicuna演示和Chatbot Arena网站上210K个独特IP地址的真实环境中收集而来。我们概述了数据集的内容,包括其策划过程、基本统计数据和主题分布,突出了其多样性、独创性和规模。我们通过四个用例展示了其多样性:开发类似于GPT-4的内容管理模型、构建安全基准、训练类似于Vicuna的指令遵循模型以及创建具有挑战性的基准问题。我们相信这一数据集将成为理解和推进LLMs能力的宝贵资源。该数据集可在以下网址公开获取:https://huggingface.co/datasets/lmsys/lmsys-chat-1m。
大型语言模型(LLMs)推动了自然语言理解的极限,并展现出出色的问题解决能力。尽管取得了巨大成功,大多数现有的开源LLMs(如LLaMA-2)在解决数学问题方面仍然远未令人满意,这是由于复杂的推理过程。为了弥补这一差距,我们提出了MetaMath,这是一个专门用于数学推理的微调语言模型。具体而言,我们通过从多个角度重写问题来引导数学问题,而无需额外知识,从而产生了一个名为{MetaMathQA}的新数据集。然后我们在MetaMathQA上对LLaMA-2模型进行微调。在两个流行的数学推理基准测试(即GSM8K和MATH)上的实验结果表明,MetaMath在性能上明显优于一系列开源LLMs。我们的MetaMath-7B模型在GSM8K上达到了66.4%,在MATH上达到了19.4%,超过了相同规模的最先进模型11.5%和8.7%。特别地,{MetaMath-70B}在{GSM8K}上实现了82.3%的准确率,略优于{GPT-3.5-Turbo}。我们发布了{MetaMathQA}数据集,以及不同模型规模的{MetaMath}模型和训练代码,供公众使用。
3D视觉定位是家用机器人的关键技能,使它们能够在环境中导航、操作物体,并根据环境回答问题。虽然现有方法通常依赖于大量标记数据或在处理复杂语言查询方面存在局限性,但我们提出了LLM-Grounder,这是一种新颖的零样本、开放词汇量、基于大型语言模型(LLM)的3D视觉定位管线。LLM-Grounder利用LLM将复杂的自然语言查询分解为语义成分,并采用视觉定位工具,如OpenScene或LERF,来识别3D场景中的物体。然后,LLM评估所提出物体之间的空间和常识关系,以做出最终的定位决策。我们的方法不需要任何标记的训练数据,可以泛化到新颖的3D场景和任意文本查询。我们在ScanRefer基准测试上评估了LLM-Grounder,并展示了最先进的零样本定位准确性。我们的研究结果表明,LLM显著提高了定位能力,特别是对于复杂语言查询,使LLM-Grounder成为机器人三维视觉语言任务的有效方法。项目网站https://chat-with-nerf.github.io/ 上提供了视频和交互演示。
在这项工作中,我们介绍了Boolformer,这是第一个经过训练以执行端到端布尔函数符号回归的Transformer架构。首先,我们展示了当提供一个干净的真值表时,它能够预测复杂函数的紧凑公式,即使这些函数在训练过程中没有见过。然后,我们展示了当提供不完整和带噪声的观测时,它能够找到近似表达式的能力。我们在一系列真实世界的二元分类数据集上评估了Boolformer,展示了它作为经典机器学习方法的可解释替代方案的潜力。最后,我们将其应用于对基因调控网络动态建模的广泛任务。使用最近的基准测试,我们展示了Boolformer在速度上比当前最先进的遗传算法具有竞争力,并且速度提升了数个数量级。我们的代码和模型已公开可用。
我们介绍了Bittensor语言模型,称为“BTLM-3B-8K”,这是一个新的最先进的30亿参数开源语言模型。BTLM-3B-8K在SlimPajama数据集的627B标记上进行了训练,使用了2,048和8,192上下文长度的混合。BTLM-3B-8K在下游任务中胜过所有现有的30亿参数模型,性能提高了2-5.5%。BTLM-3B-8K甚至与一些70亿参数模型具有竞争力。此外,BTLM-3B-8K在长上下文性能方面表现出色,在高达8,192上下文长度的任务中胜过了MPT-7B-8K和XGen-7B-8K。我们在经过清理和去重的SlimPajama数据集上训练了模型;积极调整了μP超参数和调度;使用了ALiBi位置嵌入;并采用了SwiGLU非线性。在Hugging Face上,最受欢迎的模型具有70亿参数,表明用户更喜欢70亿模型的质量-大小比。将70亿参数模型压缩为30亿参数模型,并且性能影响较小,是一个重要的里程碑。BTLM-3B-8K仅需3GB内存,精度为4位,推断计算量比70亿模型少2.5倍,有助于在移动和边缘设备上访问功能强大的语言模型。BTLM-3B-8K在Hugging Face上以Apache 2.0许可证发布:https://huggingface.co/cerebras/btlm-3b-8k-base。