每日精选AI研究论文及翻译
我们介绍了Qwen2.5-1M系列模型,将上下文长度扩展到100万个标记。与之前的128K版本相比,Qwen2.5-1M系列通过长上下文预训练和后训练显著增强了长上下文能力。关键技术包括长数据合成、渐进式预训练和多阶段监督微调,有效提升了长上下文性能同时降低了训练成本。为了推广长上下文模型在更广泛的用户群体中的使用,我们提出并开源了推理框架。该框架包括一种长度外推方法,可以将模型上下文长度至少扩展四倍,甚至更多,而无需额外训练。为了降低推理成本,我们实现了一种稀疏注意力方法,以及用于部署场景的分块预填充优化,以及用于提高精度的稀疏度优化方法。此外,我们详细介绍了推理引擎中的优化,包括内核优化、管道并行和调度优化,显著提升了整体推理性能。通过利用我们的推理框架,Qwen2.5-1M模型在具有100万个标记上下文的场景中实现了显著的3倍至7倍的预填充加速。该框架为使用开源模型进行长上下文处理的应用开发提供了高效而强大的解决方案。 Qwen2.5-1M系列目前包括开源模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。评估表明,Qwen2.5-1M模型在长上下文任务中有了很大改进,而在短上下文场景中性能没有受损。具体来说,Qwen2.5-14B-Instruct-1M模型在长上下文任务中明显优于GPT-4o-mini,并支持长度为其八倍的上下文。
我们介绍了Baichuan-Omni-1.5,这是一个全模态模型,不仅具有全模态理解能力,还提供端到端的音频生成能力。为了实现跨模态的流畅高质量交互,而不损害任何模态的能力,我们优化了三个关键方面。首先,我们为多模态数据建立了全面的数据清洗和合成流水线,获得约500B高质量数据(文本、音频和视觉)。其次,设计了一个音频标记器(Baichuan-Audio-Tokenizer),用于从音频中捕获语义和声学信息,实现与MLLM的无缝集成和增强兼容性。最后,我们设计了一个多阶段训练策略,逐步整合多模态对齐和多任务微调,确保各模态之间有效协同作用。Baichuan-Omni-1.5在综合全模态能力方面领先于当代模型(包括GPT4o-mini和MiniCPM-o 2.6)。值得注意的是,它在各种多模态医学基准测试中取得了与Qwen2-VL-72B等领先模型可比的结果。
强化学习(RL)承诺提供一个几乎通用的问题解决框架。然而,在实践中,RL算法通常针对特定基准进行定制,依赖精心调整的超参数和算法选择。最近,强大的基于模型的RL方法在各种基准测试中展现出令人印象深刻的普适结果,但代价是增加了复杂性和运行时间,限制了它们的广泛适用性。在本文中,我们尝试找到一个统一的无模型深度RL算法,可以处理各种领域和问题设置。为了实现这一目标,我们利用基于模型的表示,大致线性化价值函数,利用基于模型的RL使用的更密集的任务目标,同时避免与规划或模拟轨迹相关的成本。我们使用一组超参数在各种常见RL基准测试中评估我们的算法MR.Q,并展示与特定领域和通用基线相比具有竞争力的性能,为构建通用无模型深度RL算法迈出了实质性的一步。
众所周知,在多头架构中,混合二次和次二次注意力模型已经超越了Transformer和线性RNN模型,这些工作主要集中在降低KV复杂度和提高效率。为了进一步研究表现力,我们介绍了一系列从Qwen 2.5中提炼出的模型,基于纯原生RWKV-7注意力,旨在使RNN更具表现力,并展示出超越Transformer的状态跟踪能力。我们使用基于RWKV-6架构的QRWK 32B进行研究,这是另一种方法,将整个知识处理时间缩短至仅需8小时,使用16块AMD MI300X GPU,同时保持Qwen 2.5的性能。事实上,提炼过程可以利用任何LLM,而不仅仅是Qwen,并且能够实现从更大的LLM向更小的LLM进行知识转移,且所需令牌更少。我们将解释详细的过程,并分享我们在构建更强大基础模型方面的见解。请注意,这是一项持续进行的工作,将不断更新。模型检查点和源代码可在以下链接找到:https://github.com/yynil/RWKVInside,https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1。
最近语音生成领域的进展主要受益于大规模训练数据集。然而,由于当前模型依赖于有限于正式朗读风格的有声书数据集,因此无法捕捉真实世界人类语音中固有的自发性和变化性。为了弥补这一差距,我们引入了Emilia-Pipe,这是一个开源预处理管道,可以从有价值但鲜为人知的野外数据中提取高质量的训练数据,这些数据捕捉了真实世界环境中的自发人类语音。通过利用Emilia-Pipe,我们构建了Emilia,这是第一个从野外语音数据中衍生出的多语种语音生成数据集。该数据集涵盖了英语、中文、德语、法语、日语和韩语六种语言的超过101,000小时语音。此外,我们将Emilia扩展为Emilia-Large,这是一个超过216,000小时的数据集,使其成为目前最大的开源语音生成数据集。大量实验证明,Emilia在生成自发和人类化语音方面明显优于传统的有声书数据集,展示了在捕捉真实世界人类语音的多样说话人音色和说话风格方面的卓越表现。此外,这项工作强调了通过扩大数据集规模来推动语音生成研究的重要性,并验证了Emilia在多语种和跨语种语音生成方面的有效性。
我们提出了一种名为iFormer的新型移动混合视觉网络系列,重点优化移动应用程序的延迟和准确性。iFormer有效地将卷积的快速局部表示能力与自注意力的高效全局建模能力相结合。局部交互源自将标准卷积网络ConvNeXt转换为设计更轻量级移动网络。我们新引入的移动调制注意力消除了自注意力中的内存密集型操作,并采用高效的调制机制来增强动态全局表示能力。我们进行了全面的实验,证明iFormer在各种任务中优于现有的轻量级网络。值得注意的是,iFormer在iPhone 13上仅需1.10毫秒的延迟,在ImageNet-1k上实现了令人印象深刻的80.4\%的Top-1准确率,超过了最近提出的MobileNetV4在类似延迟约束下的表现。此外,我们的方法在下游任务中显示出显著改进,包括COCO目标检测、实例分割和ADE20k语义分割,同时在这些场景中为移动设备保持低延迟,适用于高分辨率输入。
扩展语言模型的容量一直被证明是改善性能和释放新能力的可靠方法。容量主要由两个维度来定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加这两者,但这些因素之间的精确相互作用及它们对整体容量的综合贡献仍未完全理解。我们在稀疏专家混合模型(MoEs)的背景下探讨这种关系,它允许扩展参数数量而不成比例地增加每个示例的FLOPs。我们研究了变化的稀疏水平,即非活跃参数的比例,对模型在预训练和下游少样本评估期间性能的影响。我们发现在不同约束条件下(例如参数大小和总训练计算量),存在一种最佳稀疏水平,可以提高训练效率和模型性能。这些结果更好地理解了MoEs的稀疏性对扩展定律的影响,并补充了该领域现有的研究,为设计更高效的架构提供了见解。
在提升大型语言模型(LLM)能力方面,扩展测试时计算是一个有前途的方向。然而,测试时计算可以通过多种方式扩展,有效地结合不同方法仍然是一个活跃的研究领域。在这里,我们在解决来自SWE-bench数据集的真实GitHub问题的背景下探讨了这个问题。我们的系统名为CodeMonkeys,允许模型通过同时生成和运行测试脚本来迭代地编辑代码库以及其草稿编辑。我们对每个问题采样许多这样的多轮轨迹,以生成候选编辑的集合。这种方法让我们通过增加每个轨迹的迭代次数来扩展“串行”测试时计算,通过增加每个问题的轨迹数量来扩展“并行”测试时计算。通过并行扩展,我们可以在多个下游样本中分摊前期成本,使我们能够使用简单的方法让LLM读取每个文件来识别相关的代码库上下文。为了在候选编辑之间进行选择,我们结合使用模型生成的测试进行投票,并使用最终的多轮轨迹专门用于选择。总体而言,CodeMonkeys在使用约2300美元的预算解决了SWE-bench验证的57.4%问题。我们的选择方法也可用于合并来自不同来源的候选者。从现有顶级SWE-bench验证提交的编辑集合中进行选择,获得了66.2%的分数,并且在单独使用时优于集合的最佳成员。我们完全公开了我们的代码和数据,网址为https://scalingintelligence.stanford.edu/pubs/codemonkeys。
视觉语言模型(VLMs)在短短几年内彻底改变了计算机视觉模型的格局,开启了一系列新的令人兴奋的应用,从零样本图像分类,到图像字幕生成,再到视觉问答。与纯视觉模型不同,它们提供了一种直观的方式通过语言提示来访问视觉内容。这类模型的广泛适用性鼓励我们思考它们是否也与人类视觉相一致 - 具体来说,它们在多模态融合中如何采用人类引发的视觉偏见,或者它们是否仅仅继承了纯视觉模型的偏见。一个重要的视觉偏见是纹理与形状偏见,或者局部信息相对于全局信息的主导性。在本文中,我们研究了这种偏见在各种流行的VLMs中的表现。有趣的是,我们发现VLMs通常比它们的视觉编码器更倾向于形状偏见,表明视觉偏见在一定程度上通过文本在多模态模型中调节。如果文本确实影响视觉偏见,这表明我们不仅可以通过视觉输入来引导视觉偏见,还可以通过语言来引导:这一假设我们通过大量实验证实。例如,我们能够仅通过提示将形状偏见从低至49%引导至高达72%。目前,对形状的强烈人类偏见(96%)对于所有经过测试的VLMs来说仍然是遥不可及的。
状态空间模型(SSMs)已成为顺序建模中高效的变换器的替代选择,但它们无法利用特定模态的特征,限制了它们在多模态预训练中的性能。在这里,我们提出了Mixture-of-Mamba,这是一种新颖的SSM架构,通过对Mamba块进行特定模态参数化,引入了模态感知稀疏性。在Mixture-of-Transformers(W. Liang等,arXiv:2411.04996;2024)的基础上,我们将模态感知稀疏性的好处扩展到SSMs,同时保持它们的计算效率。我们在三个多模态预训练设置中评估了Mixture-of-Mamba:Transfusion(交错文本和连续图像标记与扩散损失)、Chameleon(交错文本和离散图像标记)以及包含语音的扩展三模态框架。Mixture-of-Mamba始终在较早的训练步骤中达到相同的损失值,同时显著降低了计算成本。在Transfusion设置中,Mixture-of-Mamba在1.4B规模下仅使用34.76%的训练FLOPs即可实现等效的图像损失。在Chameleon设置中,Mixture-of-Mamba在1.4B规模下仅使用42.50%的FLOPs即可达到类似的图像损失,仅使用65.40%的FLOPs即可达到类似的文本损失。在三模态设置中,MoM在1.4B规模下仅使用24.80%的FLOPs即可匹配语音损失。我们的消融研究突出了投影组件解耦的协同效应,其中联合解耦产生的收益大于单独的修改。这些结果确立了模态感知稀疏性作为一种多才多艺且有效的设计原则,将其影响从变换器扩展到SSMs,并在多模态预训练中设立了新的基准。我们的代码可在https://github.com/Weixin-Liang/Mixture-of-Mamba 上访问。
在各种视觉生成模型中,无分类器引导(CFG)已成为一种默认技术,但在采样过程中需要同时进行条件模型和无条件模型的推断。我们提出构建无引导采样的视觉模型。由此产生的算法,无引导训练(GFT),在将采样减少到单个模型的同时,与CFG的性能相匹配,将计算成本减半。与先前依赖预训练的CFG网络的蒸馏方法不同,GFT可以直接从头开始训练。GFT实现简单。它保留了与CFG相同的最大似然目标,主要区别在于条件模型的参数化。实现GFT只需要对现有代码库进行最少的修改,因为大多数设计选择和超参数直接继承自CFG。我们在五种不同的视觉模型上进行了大量实验,展示了GFT的有效性和多功能性。在扩散、自回归和掩蔽预测建模领域,GFT始终实现了与CFG基线相媲美甚至更低的FID分数,同时在无引导的情况下保持了类似的多样性-保真度权衡。代码将在https://github.com/thu-ml/GFT 上提供。
大型语言模型(LLMs)中的可定制角色扮演,也被称为角色泛化,因其在开发和部署角色扮演对话代理时的多功能性和成本效益而受到越来越多的关注。本研究探讨了一种大规模数据合成方法,以赋予LLMs角色泛化能力。我们首先使用Persona Hub中的人物角色,合成大规模角色概况,然后探索两种策略:响应重写和响应生成,以创建与角色对齐的指导性响应。为验证我们的合成指导性调整数据对角色泛化的有效性,我们使用LLaMA-3 8B模型进行监督微调(SFT)。我们表现最佳的模型加强了原始的LLaMA-3 8B Instruct模型,并在角色扮演对话中达到了与GPT-4o模型相当的性能。我们发布了我们的合成角色和指导性调整对话,以支持公共研究。
大型仅解码器语言模型的主导地位已经使编码器-解码器架构黯然失色,尽管在序列处理中具有基本的效率优势。对于小语言模型(SLMs)- 即参数少于10亿的模型 - 我们在GPU、CPU和NPU平台上的系统分析显示,与仅解码器模型相比,编码器-解码器架构在边缘设备上实现了47%更低的首令延迟和4.7倍的吞吐量。这些收益可以归因于编码器-解码器的一次性输入处理和理解与生成阶段的高效分离。 我们引入了一种新颖的知识蒸馏框架,使编码器-解码器模型能够利用大规模仅解码器教师的能力,同时保留其架构优势,在各种任务中平均性能提升了6个百分点,特别是在输入和输出分布可以从不同处理方法中受益的非对称序列任务中获得了显著的收益。 结合现代进展,如旋转位置嵌入(RoPE)和视觉编码器,我们的系统调查表明,编码器-解码器架构为在资源受限环境中部署功能强大的语言模型提供了更实用的途径。我们的发现挑战了仅解码器扩展的普遍趋势,表明随着参数预算的减少,尤其是对于计算效率至关重要的设备和边缘部署,架构选择变得越来越关键。
我们引入了可行学习(Feasible Learning,FL)这一以样本为中心的学习范式,其中模型通过解决一个约束每个训练样本损失的可行性问题来进行训练。与普遍采用的经验风险最小化(Empirical Risk Minimization,ERM)框架相比,后者优化平均性能,而FL要求在每个单独数据点上表现出令人满意的性能。由于任何满足规定性能阈值的模型都是有效的FL解决方案,优化算法的选择及其动态在塑造最终解决方案的特性方面起着至关重要的作用。具体而言,我们研究了一种原始-对偶方法,该方法在训练过程中动态重新调整每个样本的重要性。为了解决在实践中设置有意义阈值的挑战,我们引入了FL的一种松弛形式,其中包含最小范数的松弛变量。我们的实证分析涵盖了图像分类、年龄回归以及大型语言模型中的偏好优化,结果表明通过FL训练的模型可以从数据中学习,同时相较于ERM,表现出改善的尾部行为,对平均性能仅有轻微影响。