每日精选AI研究论文及翻译
尽管大型语言模型(LLMs)在文本生成方面展示出令人印象深刻的能力,但我们发现它们的能力尚未普遍应用到音乐,人类的创造性语言。我们介绍了ChatMusician,这是一个集成内在音乐能力的开源LLM。它基于对文本兼容的音乐表示法ABC记谱的持续预训练和微调LLaMA2,并将音乐视为第二语言。ChatMusician能够理解并生成音乐,使用纯文本标记器而无需任何外部多模态神经结构或标记器。有趣的是,赋予音乐能力并不会损害语言能力,甚至能够实现略高的MMLU得分。我们的模型能够根据文本、和弦、旋律、主题、音乐形式等条件,创作结构良好、长度完整的音乐,超越了GPT-4的基准线。在我们精心策划的大学水平音乐理解基准测试MusicTheoryBench上,ChatMusician在零-shot设置下明显优于LLaMA2和GPT-3.5。我们的工作揭示了LLMs可以成为音乐的出色压缩器,但仍有重要领域有待开发。我们在GitHub上发布了我们的4B令牌音乐语言语料库MusicPile、收集的MusicTheoryBench、代码、模型和演示。
我们介绍了 Nemotron-4 15B,这是一个拥有 150 亿参数的大型多语言语言模型,训练数据包含 8 万亿文本标记。Nemotron-4 15B 在英语、多语言和编码任务上表现出色:在 7 个下游评估领域中,它在 4 个领域中胜过所有现有规模相似的开放模型,并在其余领域中取得了与领先的开放模型竞争力相当的表现。具体而言,Nemotron-4 15B 展现出了所有规模相似模型中最佳的多语言能力,甚至胜过四倍以上规模的模型以及专门针对多语言任务的模型。
尽管从头开始训练大型语言模型(LLMs)确实可以导致具有独特能力和优势的模型,但这种方法会产生巨大成本,并可能导致能力的潜在冗余。另一种替代策略是将现有的LLMs组合成更强大的LLM,从而减少昂贵的预训练的必要性。然而,由于LLMs具有不同的架构,直接参数混合被证明是不可行的。最近,FuseLLM引入了知识融合的概念,通过轻量级持续训练将多个结构各异的LLMs的集体知识转移至目标LLM。在本报告中,我们将FuseLLM框架的可扩展性和灵活性扩展到实现对话LLMs的融合,从而产生FuseChat。FuseChat包括两个主要阶段。首先,我们对结构和规模各异的源LLMs进行知识融合,通过轻量级微调得出具有相同结构和大小的多个目标LLMs。然后,这些目标LLMs在参数空间内合并,我们提出了一种基于微调前后参数矩阵变化比率确定合并权重的新方法。我们使用三个具有不同架构和规模的知名对话LLMs,即NH2-Mixtral-8x7B、NH2-Solar-10.7B和OpenChat-3.5-7B来验证我们的方法。跨越各种对话领域的实验结果表明,在7B和34B规模上,\textsc{FuseChat-7B}在广泛的对话LLMs中表现优越,甚至超过了GPT-3.5(三月)并接近Mixtral-8x7B-Instruct。我们的代码、模型权重和数据可以在https://github.com/fanqiwan/FuseLLM 上公开访问。
我们介绍了设计、实施和工程经验,用于构建和部署 MegaScale,这是一个用于在超过10,000个GPU规模上训练大型语言模型(LLMs)的生产系统。在这一规模上训练LLMs带来了训练效率和稳定性方面前所未有的挑战。我们采取了全栈方法,通过跨模型块和优化器设计、计算和通信重叠、运算符优化、数据管道和网络性能调优,共同设计算法和系统组件。在整个训练过程中保持高效率(即稳定性)是生产中的一个重要考虑因素,考虑到LLM训练作业的长时间跨度。许多困难的稳定性问题只会在大规模下出现,深入的可观察性是解决这些问题的关键。我们开发了一套诊断工具,以监视系统组件和堆栈深处的事件,识别根本原因,并制定有效技术以实现容错性和减轻滞后者。MegaScale在使用12,288个GPU训练175B的LLM模型时实现了55.2%的模型FLOPs利用率(MFU),相比Megatron-LM提高了1.34倍的MFU。我们分享了在识别和修复故障和滞后者方面的运营经验。我们希望通过从系统角度阐明问题并分享我们的经验,能够激发未来LLM系统研究的灵感。
低秩适应(LoRA)在文本到图像模型中被广泛应用,以准确呈现生成图像中的特定元素,如独特字符或风格。然而,现有方法在有效组合多个LoRA方面面临挑战,特别是随着需要集成的LoRA数量增加,从而阻碍了复杂图像的创建。本文通过解码为中心的视角研究了多LoRA组合。我们提出了两种无需训练的方法:LoRA切换,它在每个去噪步骤中在不同LoRA之间交替,并LoRA复合,它同时整合所有LoRA以指导更具连贯性的图像合成。为评估所提出的方法,我们建立了ComposLoRA,作为本研究的一部分的新综合测试平台。它包含了480个组合设置的各种LoRA类别。利用基于GPT-4V的评估框架,我们的研究结果表明,相较于流行基准线,在组合中增加LoRA数量时,我们的方法在性能上有明显改善。
我们研究了大型语言模型(LLMs)是否在复杂提示中潜在地进行多跳推理,例如“‘迷信’歌手的母亲是谁”。我们寻找潜在推理路径的证据,其中一个LLM(1)潜在地确定“‘迷信’的歌手”为Stevie Wonder,作为桥梁实体,然后(2)利用其对Stevie Wonder母亲的了解来完成提示。我们分别分析这两个跳,并将它们的共现视为潜在多跳推理的指标。对于第一个跳,我们测试将提示更改为间接提及桥梁实体而不是任何其他实体是否会增加LLM对桥梁实体的内部回忆。对于第二个跳,我们测试增加这种回忆是否会导致LLM更好地利用其对桥梁实体的了解。我们发现在某些关系类型的提示中存在潜在的多跳推理证据,其中80%以上的提示使用了这种推理路径。然而,利用是高度依赖语境的,在不同类型的提示中变化很大。此外,平均而言,第二跳和完整的多跳遍历的证据相当适度,只有第一跳的证据较为充分。此外,我们发现第一跳推理随着模型规模的增加呈现明显的扩展趋势,但第二跳并非如此。我们的实验结果表明了LLMs未来发展和应用中可能面临的挑战和机遇。
结构化数据源,如表格、图形和数据库,是普遍的知识来源。尽管大型语言模型(LLMs)在处理纯文本方面表现出色,但它们在解释和利用结构化数据方面的能力仍然有限。我们的调查揭示了LLMs在处理结构化数据方面存在明显不足,例如,ChatGPT在平均落后于最先进模型(SoTA)35%。为了增强LLMs中的结构化知识基础(SKG)能力,我们开发了一个包含110万个示例的全面指导调整数据集。利用这个数据集,我们训练了一系列基于Code-LLaMA架构的模型,称为StructLM,参数范围从7B到34B。我们的StructLM系列在18个评估数据集中的14个上超越了特定任务模型,并在7个SKG任务上建立了新的SoTA成就。此外,StructLM在6个新颖的SKG任务上展现了出色的泛化能力。与预期相反,我们观察到扩大模型规模只带来了边际效益,StructLM-34B仅略优于StructLM-7B。这表明结构化知识基础仍然是一个具有挑战性的任务,需要更多创新设计来推动到一个新水平。
近年来,大语言模型(LLMs)的发展主要趋势是“越大越好”。然而,LLMs 并不适用于需要在设备上进行处理、能效高、内存占用低和响应高效的场景。这些要求对于隐私、安全和可持续部署至关重要。本文通过探讨“少即是多”的范式,解决了为资源受限设备设计准确而高效的小语言模型(SLMs)的挑战。我们的主要贡献是引入了一个准确且完全透明的开源 5 亿(0.5B)参数的SLM,名为MobiLlama,满足资源受限计算的特定需求,重点在于提高性能同时降低资源需求。MobiLlama 是一个SLM设计,从一个较大的模型开始,并应用谨慎的参数共享方案,以降低预训练和部署成本。我们的工作不仅致力于弥合开源SLMs的差距,还确保完全透明,提供完整的训练数据管道、训练代码、模型权重和超过300个检查点以及评估代码,可在以下链接找到:https://github.com/mbzuai-oryx/MobiLlama。
广泛采用了比较设置(例如成对选择、列表排序)进行图像质量评估(IQA)的主观研究,因为它在不同观察者之间固有地标准化评估标准并提供更明确的响应。在这项工作中,我们将新兴的大型多模态模型(LMMs)的边缘扩展到开放式设置,以进一步推动视觉质量比较,能够回答关于质量比较的开放范围问题,并提供超越直接答案的详细推理。为此,我们提出了Co-Instruct。为了训练这种首创的开源开放式视觉质量比较器,我们从两个来源收集了Co-Instruct-562K数据集:(a)LMM-合并的单图像质量描述,(b)GPT-4V对未标记数据的“教师”响应。此外,为了更好地评估这种设置,我们提出了MICBench,这是针对LMMs的多图像比较的第一个基准。我们证明Co-Instruct不仅比最先进的开源LMMs实现了30%更高的优越准确性,而且在现有相关基准和提出的MICBench上也胜过了GPT-4V(其教师)。我们的模型已发布在https://huggingface.co/q-future/co-instruct。
随着大型语言模型(LLMs)在许多实际应用中变得越来越普遍,理解和增强其对用户输入的稳健性变得至关重要。现有用于识别对抗性提示的方法往往专注于特定领域,缺乏多样性,或需要大量人工标注。为了解决这些限制,我们提出了Rainbow Teaming,这是一种用于生成多样化对抗性提示集合的新方法。Rainbow Teaming将对抗性提示生成视为一个质量-多样性问题,并使用开放式搜索来生成既有效又多样化的提示。它可以揭示模型在包括本文中的安全性、问答和网络安全在内的广泛领域中的漏洞。我们还证明,对Rainbow Teaming生成的合成数据进行微调可以提高最先进的LLMs的安全性,而不会损害它们的通用能力和实用性,为开放式自我改进铺平道路。