每日精选AI研究论文及翻译
最近在大型语言模型(LLMs)领域取得的突破集中在少数数据丰富的语言上。如何扩大突破成果的获取范围,超越头等公民语言?我们的工作引入了Aya,一个大规模多语言生成语言模型,可以遵循101种语言的指令,其中超过50%被认为是资源较少的语言。Aya在大多数任务上的表现优于mT0和BLOOMZ,同时涵盖的语言数量是它们的两倍。我们引入了广泛的新评估套件,扩展了跨99种语言的多语言评估的最新技术,包括区分性和生成性任务、人类评估以及模拟胜率,涵盖了被保留的任务和分布性能。此外,我们对最佳微调混合组成、数据修剪以及模型的毒性、偏见和安全性进行了详细调查。我们将我们的指令数据集和模型开源,网址为https://hf.co/CohereForAI/aya-101。
计算机的自主交互一直是一个具有巨大潜力的长期挑战,而近年来大型语言模型(LLMs)的大量普及显著加速了构建数字代理的进展。然而,大多数这些代理被设计用于与狭窄领域进行交互,比如特定软件或网站。这种狭窄的焦点限制了它们在一般计算机任务中的适用性。为此,我们引入了OS-Copilot,这是一个用于构建通用代理的框架,能够与操作系统(OS)中的全面元素进行交互,包括网络、代码终端、文件、多媒体和各种第三方应用程序。我们使用OS-Copilot创建了FRIDAY,一个用于自动化一般计算机任务的自我改进的实体代理。在GAIA上,一个通用人工智能助手基准测试中,FRIDAY的表现比以往方法提高了35%,展示了通过从以前任务中积累的技能对未知应用程序具有强大的泛化能力。我们还提供了数字和定量证据表明,FRIDAY学会了在Excel和Powerpoint上进行控制和自我改进,而监督很少。我们的OS-Copilot框架和实证研究结果为未来研究提供了基础设施和见解,以构建更有能力和通用的计算机代理。
大型语言模型(LLMs)在化学应用方面取得了令人瞩目的进展,包括分子性质预测、分子生成、实验方案设计等。然而,社区缺乏专门针对化学设计的基于对话的模型。挑战在于大多数化学数据和科学知识主要存储在结构化数据库中,直接使用这些结构化数据会影响模型保持连贯对话的能力。为了解决这个问题,我们开发了一种新颖的基于模板的指导构建方法,将结构化知识转化为简洁对话,使其适用于语言模型训练。通过利用这种方法,我们开发了ChemLLM,这是第一个专门用于化学的大型语言模型,能够在化学领域执行各种任务,并实现流畅的对话交互。ChemLLM在化学的三项主要任务,即名称转换、分子说明和反应预测方面击败了GPT-3.5,并在其中两项任务上超越了GPT-4。值得注意的是,尽管主要在以化学为中心的语料库上进行训练,ChemLLM还展现出对相关数学和物理任务的出色适应能力。此外,ChemLLM在化学领域的专业NLP任务中表现出熟练,如文献翻译和化学信息编程。ChemLLM为化学研究开辟了新的探索途径,而我们将结构化化学知识整合到对话系统中的方法为在各种科学领域开发LLMs设定了新的前沿。代码、数据集和模型权重可在hf.co/AI4Chem/ChemLLM-7B-Chat上公开获取。
基于混合专家(MoE)架构的大型语言模型(LLMs)在各种任务上显示出有希望的性能。然而,在资源受限的环境中运行它们,即GPU内存资源不丰富的情况下,由于模型规模庞大,是具有挑战性的。现有的将模型权重转移到CPU内存的系统饱受频繁在CPU和GPU之间移动数据的重大开销之苦。在本文中,我们提出了Fiddler,这是一个具有CPU-GPU协同的资源高效推理引擎,适用于MoE模型。Fiddler的关键思想是利用CPU的计算能力来最小化CPU和GPU之间的数据移动。我们的评估表明,Fiddler可以在单个具有24GB内存的GPU上运行未压缩的Mixtral-8x7B模型,该模型参数超过90GB,每秒生成超过3个标记,相比现有方法,显示出数量级的改进。Fiddler的代码可在以下网址公开获取:https://github.com/efeslab/fiddler
视觉语言模型(VLMs)展现了在各种任务中的出色能力,从逻辑推理到视觉理解。这为与世界更丰富地互动打开了大门,例如机器人控制。然而,VLMs只生成文本输出,而机器人控制和其他空间任务需要输出连续坐标、动作或轨迹。我们如何使VLMs能够处理这些设置,而无需在特定任务数据上进行微调呢? 在本文中,我们提出了一种新颖的视觉提示方法,称为Prompting with Iterative Visual Optimization(PIVOT),将任务构建为迭代式视觉问答。在每次迭代中,图像用提案的视觉表示进行注释,VLM可以参考这些提案(例如候选机器人动作、定位或轨迹)。然后,VLM选择最适合任务的提案。这些提案经过迭代精炼,使VLM最终能够找到最佳答案。我们在真实世界的机器人导航、图像中的真实世界操作、模拟中的指令遵循以及其他空间推理任务(如定位)上研究了PIVOT。我们发现,或许令人惊讶的是,我们的方法实现了零-shot控制机器人系统,无需任何机器人训练数据,在各种环境中导航以及其他功能。尽管当前性能远非完美,但我们的工作突显了这种新模式的潜力和局限性,并展示了在机器人和空间推理领域中实现Internet规模VLMs的一种有前途的方法。网站:pivot-prompt.github.io 和 HuggingFace:https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。
笑声是人类语音中最具表现力和自然的方面之一,传达情感、社交暗示和幽默。然而,大多数文本转语音(TTS)系统缺乏产生逼真和恰当笑声的能力,限制了它们的应用和用户体验。虽然之前有一些工作致力于生成自然笑声,但在控制笑声的时机和多样性方面存在不足。在本研究中,我们提出ELaTE,一种零样本TTS,可以根据短音频提示生成任何说话者的自然笑声语音,并精确控制笑声的时机和表达。具体而言,ELaTE通过音频提示模仿声音特征,通过文本提示指示生成语音的内容,通过输入控制笑声表达,可以是笑声的开始和结束时间,或包含要模仿笑声的额外音频提示。我们基于条件流匹配的零样本TTS基础开发了我们的模型,并通过笑声检测器的帧级表示进行微调作为额外的条件。通过简单的方案将小规模笑声条件数据与大规模预训练数据混合,我们证明了预训练的零样本TTS模型可以轻松微调以生成具有精确可控性的自然笑声,而不会损失预训练的零样本TTS模型的任何质量。通过评估,我们展示ELaTE可以生成笑声语音,质量和可控性明显优于传统模型。请访问https://aka.ms/elate/查看演示样本。
随着人工智能模型规模的增长,神经网络缩放定律已成为一种关键工具,用于预测大型模型在增加容量和原始(人类或自然)训练数据规模时的改进。然而,流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐包含更多合成数据。本文探讨了一个问题:在合成数据不可避免地进入训练语料库的情况下,缩放定律会如何变化?未来的模型会继续改进,还是注定会退化甚至完全崩溃?我们通过缩放定律的视角构建了一个模型崩溃的理论框架。我们发现了各种衰减现象,分析了缩放丧失、随着世代数量的变化而发生的缩放偏移、技能的“反学习”以及在混合人类和合成数据时的洞察。我们通过对一个算术任务上的变压器和使用大型语言模型Llama2进行的文本生成的大规模实验验证了我们的理论。
在视觉条件语言模型(VLMs)中的广泛应用,如视觉对话、场景理解和机器人任务规划,推动了诸如LLaVa、InstructBLIP和PaLI-3等众多新模型的涌现。尽管发布了大量新模型,但围绕图像预处理、架构和优化的关键设计决策尚未得到充分探讨,这使得理解模型性能的因素变得具有挑战性。这一挑战进一步复杂化,因为缺乏客观、一致的评估。为了填补这些空白,我们首先编制了一套标准化评估,涵盖视觉问答、语言中的物体定位以及探究诸如幻觉等属性的定向挑战集,这些评估为我们提供了对VLM能力的校准、细致洞察。其次,我们严格调查VLMs沿着关键设计轴线,包括预训练视觉表示和量化使用基础语言模型与指导调整语言模型之间的权衡,等等。我们将分析与三项资源贡献相结合:(1)用于评估VLMs的统一框架,(2)用于VLM训练的优化、灵活的代码,以及(3)所有模型的检查点,包括一系列严格优于InstructBLIP和LLaVa v1.5的VLMs,这是开源VLMs的最新技术水平,规模为7-13B。
为了通过持续预训练提高语言模型在数学推理方面的熟练度,我们引入了一种新颖的策略,利用基础语言模型进行自主数据选择。与传统的监督微调或使用人工标注数据训练的分类器不同,我们的方法利用元提示语言模型作为零样本验证器,自主评估和选择高质量的数学内容,并发布了涵盖超过200GB数据的经过筛选的开源AutoMathText数据集。为了展示我们方法的有效性,我们持续在AutoMathText数据集上对一个拥有7B参数的Mistral语言模型进行预训练,在MATH数据集上实现了显著的下游性能提升,与先前的持续预训练工作相比,标记数量减少了数个数量级。我们的方法展示了与基准线相比预训练标记效率增加了2倍,突显了我们方法在增强模型数学推理能力方面的潜力。AutoMathText数据集可在https://huggingface.co/datasets/math-ai/AutoMathText 获取。代码可在https://github.com/yifanzhang-pro/AutoMathText 获取。
混合专家(MoE)模型已成为降低大型语言模型计算成本的主要解决方案。在这项工作中,我们分析了它们的扩展性质,包括了更广泛的变量。具体地,我们引入了一个新的超参数,即粒度,通过调整它可以精确控制专家的大小。在此基础上,我们建立了适用于细粒度MoE的扩展规律,考虑了训练标记的数量、模型大小和粒度。利用这些规律,我们为给定计算预算推导出了最佳训练配置。我们的研究结果不仅表明,MoE模型始终优于密集Transformer,还突出了密集和MoE模型之间的效率差距随着模型大小和训练预算的扩大而加大。此外,我们证明了在几乎任何计算预算下,将MoE中专家的大小设置为与前馈层相同的常见做法并非最佳选择。
在这项工作中,我们研究了在强化学习从人类反馈中出现的奖励欺骗问题,即LLMs上的响应长度。LLMs中格式良好、冗长但不太有帮助的响应往往会欺骗LLMs甚至人类评估者以获得高分。同样的问题也存在于RL中的一些奖励模型中。为了解决训练和评估中的挑战,我们建立了一个更可靠的评估协议,用于比较不同训练配置,该协议检查了通过改变训练超参数获得的LLM评估分数和响应长度之间的权衡。基于这种评估,我们进行了大规模研究,结果揭示了在减轻长度偏见方面在RL中使用的超参数和技巧的有效性。我们进一步提出通过共同训练两个线性头部在共享特征表示上预测奖励来改进奖励模型,一个头部训练以与长度相关,另一个头部训练以与长度不相关,因此更专注于实际内容。然后在RL中丢弃长度头部以防止对长度的奖励欺骗。实验证明,我们的方法几乎消除了奖励与长度的相关性,并显著改善了获得的策略。
我们提出了LiRank,这是LinkedIn的一个大规模排名框架,将最先进的建模架构和优化方法应用于生产中。我们揭示了几项建模改进,包括Residual DCN,它在著名的DCNv2架构中添加了注意力和残差连接。我们分享了将SOTA架构组合和调整以创建统一模型的见解,包括Dense Gating、Transformers和Residual DCN。我们还提出了用于校准的新技术,并描述了我们如何将基于深度学习的探索/利用方法投入生产。为了实现对大型排名模型的有效生产级服务,我们详细介绍了如何使用量化和词汇压缩来训练和压缩模型。我们提供了有关Feed排名、职位推荐和广告点击率(CTR)预测大规模用例的部署设置的详细信息。通过阐明最有效的技术方法,我们总结了从各种A/B测试中学到的经验。这些想法已经在LinkedIn各个方面带来了相对指标的提升:Feed中会员会话+0.5%,职位搜索和推荐的合格工作申请+1.76%,广告CTR+4.3%。我们希望这项工作能为有兴趣利用大规模深度排名系统的从业者提供实用见解和解决方案。
我们提出了GALA3D,即具有布局引导控制的生成式3D高斯模型,用于有效的组合文本到3D生成。我们首先利用大型语言模型(LLMs)生成初始布局,并引入了布局引导的3D高斯表示,用于具有自适应几何约束的3D内容生成。然后,我们提出了一种对象-场景组合优化机制,通过条件扩散协同生成具有一致几何、纹理、比例和准确多对象之间交互的逼真3D场景,同时调整从LLMs中提取的粗略布局先验以与生成的场景对齐。实验表明,GALA3D是一个用户友好的、端到端的框架,用于最先进的场景级3D内容生成和可控编辑,同时确保场景内对象级实体的高保真度。源代码和模型将在https://gala3d.github.io/ 上提供。
自我对齐是降低人工标注成本、同时确保模型能力的有效方法。然而,大多数当前方法在单轮完成数据收集和训练步骤,可能忽视自我对齐模型不断提升的能力。这引发了一个关键问题:如果我们进行多次自举自我对齐会怎样?这种策略是否会提升模型性能或导致快速退化?在本文中,我们的开创性探索深入研究了自举自我对齐对大型语言模型的影响。我们的发现显示,通过保证来自上下文学习的数据多样性,自举自我对齐明显优于单轮方法。为了进一步发挥自举的能力,我们研究并调整数据的训练顺序,从而提高模型的性能。基于这些发现,我们提出了Step-On-Feet Tuning(SOFT),利用模型持续增强的少样本能力来提升零样本或一样本的性能。基于由易到难的训练配方,我们提出了SOFT+,进一步提升自我对齐的性能。我们的实验表明,SOFT(SOFT+)在各种分类和生成任务中展现了高效性,突显了自举自我对齐对持续增强模型对齐性能的潜力。
我们引入了语言反馈模型(LFMs),用于在指令跟随中识别理想行为 - 即有助于实现指令中指定任务的行为,以进行模仿学习。为了训练LFMs,我们从大型语言模型(LLMs)获取反馈,该反馈基于将视觉轨迹口头描述为语言描述。首先,通过使用LFMs识别理想行为进行模仿,我们在三个不同的语言基础环境(Touchdown、ScienceWorld和ALFWorld)上提高了任务完成率,超过了强行为克隆基线。其次,LFMs在控制LLM输出令牌数量时胜过使用LLMs作为专家直接预测行动。第三,LFMs可以推广到未见环境,通过一轮适应提高了3.5-12.0%的任务完成率。最后,LFM可以进行修改以提供人类可解释的反馈,而不会损失性能,从而允许人类验证模仿学习的理想行为。