每日精选AI研究论文及翻译
近期发布的DeepSeek-R1展示了强化学习(RL)在提升大型语言模型(LLMs)通用推理能力方面的巨大潜力。尽管DeepSeek-R1及其后续研究主要聚焦于将RL应用于编程竞赛和数学问题,本文则首次提出了SWE-RL,这一方法旨在将基于RL的LLM推理扩展至现实世界的软件工程领域。通过利用轻量级的基于规则的奖励机制(例如,真实解决方案与LLM生成方案之间的相似度评分),SWE-RL使LLMs能够从海量的开源软件演化数据中自主学习,自主恢复开发者的推理过程及解决方案——这些数据记录了软件的全生命周期,包括代码快照、代码变更以及如问题和拉取请求等事件。基于Llama 3训练,我们最终得到的推理模型Llama3-SWE-RL-70B,在SWE-bench Verified上达到了41.0%的解决率,这是一个人工验证的真实世界GitHub问题集合。据我们所知,这是迄今为止中型(<100B)LLMs报告的最佳性能,甚至可与GPT-4o等领先的专有LLMs相媲美。令人惊讶的是,尽管仅在软件演化数据上进行RL训练,Llama3-SWE-RL却展现出了泛化的推理能力。例如,在五个跨领域任务上——函数编码、库使用、代码推理、数学及通用语言理解——均取得了改进,而相比之下,监督微调的基线模型平均表现反而有所下降。总体而言,SWE-RL为通过大规模软件工程数据进行强化学习,从而提升LLMs的推理能力开辟了新的方向。
近期,开源多模态大语言模型(MLLMs)的研究进展主要集中在提升基础能力上,而在与人类偏好对齐方面仍存在显著空白。本文介绍了OmniAlign-V,一个包含20万高质量训练样本的综合性数据集,涵盖了多样化的图像、复杂的问题及多种响应格式,旨在提升MLLMs与人类偏好的对齐度。同时,我们推出了MM-AlignBench,这是一个专门设计用于评估MLLMs与人类价值观对齐程度的人工标注基准。实验结果表明,通过监督微调(SFT)或直接偏好优化(DPO)方法,利用OmniAlign-V对MLLMs进行微调,不仅能显著增强其与人类偏好的对齐,还能保持乃至提升在标准视觉问答(VQA)基准上的性能,确保其基础能力不受影响。我们的数据集、基准、代码及模型检查点已发布于https://github.com/PhoenixZ810/OmniAlign-V。
由于注意力机制具有二次时间复杂度,高效的注意力实现对于大型模型至关重要。幸运的是,注意力机制通常表现出稀疏性,即注意力映射中的许多值接近零,这使得可以省略相应的计算。许多研究已利用这种稀疏模式来加速注意力计算。然而,现有工作大多专注于通过利用注意力映射的特定稀疏模式来优化特定模型内的注意力计算。一种既能保证加速又能确保多种模型端到端性能的通用稀疏注意力机制仍难以实现。本文中,我们提出了SpargeAttn,一种适用于任何模型的通用稀疏量化注意力机制。我们的方法采用了两阶段在线过滤:第一阶段,我们快速且准确地预测注意力映射,从而跳过注意力计算中的部分矩阵乘法;第二阶段,我们设计了一种无额外开销的在线softmax感知过滤器,进一步跳过部分矩阵乘法。实验表明,我们的方法显著加速了包括语言、图像和视频生成在内的多种模型,且未牺牲端到端指标。代码已发布于https://github.com/thu-ml/SpargeAttn。
在图像编辑任务中,背景一致性仍然是一个重大挑战。尽管已有诸多进展,现有方法仍需在保持与原图相似性和生成与目标一致的内容之间权衡。为此,我们提出了KV-Edit,一种无需训练的方法,它利用DiTs中的KV缓存来维持背景一致性,通过保留而非重新生成背景标记,避免了复杂机制或昂贵的训练需求,最终在用户指定区域内生成与背景无缝融合的新内容。我们进一步探讨了编辑过程中KV缓存的内存消耗,并采用无反转方法将空间复杂度优化至O(1)。该方法兼容任何基于DiT的生成模型,无需额外训练。实验表明,KV-Edit在背景和图像质量方面显著优于现有方法,甚至超越了基于训练的方法。项目网页详见https://xilluill.github.io/projectpages/KV-Edit。
多层图像生成是一项基础性任务,它使用户能够隔离、选择和编辑特定的图像层,从而彻底革新了与生成模型的交互方式。本文介绍了匿名区域变换器(ART),它能够基于全局文本提示和匿名区域布局直接生成可变的多层透明图像。受图式理论的启发,该理论认为知识是以框架(图式)形式组织的,使人们能够通过将新信息与已有知识联系起来进行解释和学习,这种匿名区域布局让生成模型能够自主决定哪些视觉标记应与哪些文本标记对齐,这与之前图像生成任务中占主导地位的语义布局形成鲜明对比。此外,分层区域裁剪机制仅选择属于每个匿名区域的视觉标记,显著降低了注意力计算成本,并实现了具有众多独立层(如50层以上)图像的高效生成。与全注意力方法相比,我们的方法速度提升了12倍以上,且层间冲突更少。进一步地,我们提出了一种高质量的多层透明图像自动编码器,支持以联合方式直接编码和解码可变多层图像的透明度。通过实现精确控制和可扩展的层生成,ART为交互式内容创作确立了新范式。
计算技术的飞速发展极大地提升了大规模语言模型(LLMs)训练的规模与成本。在模型训练前准确预测下游任务表现,对于资源高效配置至关重要,然而这一目标面临两大主要挑战:(1)“涌现现象”,即下游性能指标仅在经过大量训练后才具备意义,这限制了使用较小模型进行预测的能力;(2)任务难度分布不均及缺乏一致的缩放规律,导致性能指标存在显著波动。现有性能预测方法在准确性与可靠性上均显不足,从而阻碍了对LLM潜在能力的评估。为应对这些挑战,我们提出了一种基于难度聚类的下游性能预测框架(Clustering-On-Difficulty, COD)。COD首先通过依据难度特征对任务进行聚类,构建一个可预测的支持子集,策略性地排除非涌现及不可扩展的聚类。所选子集上的得分作为有效的中介预测因子,用于预测完整评估集上的下游表现。在理论支持下,我们推导出一个映射函数,将性能指标从可预测子集转换至完整评估集,从而确保LLM下游性能的准确外推。该方法已应用于预测一个70B规模LLM的性能缩放,为训练资源分配提供了可操作的见解,并辅助监控训练过程。值得注意的是,COD通过集成小模型,在70B LLM上实现了卓越的预测精度,在八个重要LLM评估基准上的绝对平均偏差仅为1.36%。
科学实验作为人类进步的基石,其严谨性体现在可靠性、系统性控制与可解释性上,以确保获得有意义的结果。尽管大型语言模型(LLMs)在自动化科学流程的多个方面展现出日益增强的能力,但实现严格实验的自动化仍面临重大挑战。为填补这一空白,我们提出了Curie,一个旨在通过三大核心组件将严谨性融入实验过程的AI代理框架:内部代理严谨性模块以提升可靠性,外部代理严谨性模块以维持系统性控制,以及实验知识模块以增强可解释性。为评估Curie,我们设计了一个新颖的实验基准,该基准包含跨越计算机科学四个领域的46个问题,这些问题源自具有影响力的研究论文及广泛采用的开源项目。与所测试的最强基线相比,Curie在正确回答实验问题上实现了3.4倍的提升。Curie已在https://github.com/Just-Curieous/Curie开源。
近期研究探索了将不同LoRA(低秩适应)模型结合以共同生成学习到的风格与内容。然而,现有方法要么无法有效同时保留原始主体与风格,要么需要额外训练。本文主张,LoRA的内在特性能够有效指导扩散模型在学习主体与风格之间进行融合。基于这一洞见,我们提出了K-LoRA,一种简单却高效的无训练LoRA融合方法。在每一注意力层中,K-LoRA比较待融合各LoRA中的Top-K元素,决定选择哪个LoRA以实现最优融合。这一选择机制确保了融合过程中主体与风格最具代表性的特征得以保留,有效平衡了二者的贡献。实验结果表明,所提方法成功整合了原始LoRA学习到的主体与风格信息,在定性与定量结果上均超越了基于训练的最先进方法。
为了有效利用视觉信息,多模态大语言模型(MLLM)依赖于其视觉编码器的感知过程。视觉感知的完整性与准确性,对空间推理、细粒度理解等任务的精确度有着显著影响。然而,MLLM目前尚缺乏自主控制其视觉感知过程的能力,例如,无法有选择性地审视图像的特定区域或聚焦于与特定物体类别相关的信息。在本研究中,我们提出了视觉感知令牌的概念,旨在为MLLM赋予一种机制,以控制其视觉感知过程。我们设计了两类视觉感知令牌,分别称为区域选择令牌和视觉重编码令牌。MLLM如同生成文本一般自主生成这些令牌,并利用它们触发额外的视觉感知动作。区域选择令牌明确标识图像中需要进一步感知的特定区域,而视觉重编码令牌则利用其隐藏状态作为控制信号,引导额外的视觉感知过程。大量实验证明,这些令牌在处理空间推理、提升细粒度理解等任务中具有显著优势。平均而言,引入视觉感知令牌使一个2B参数模型的性能提升了23.6%,得分从0.572提高至0.708,甚至超越了7B参数模型13.4%(从0.624起)。欢迎访问我们的代码库:https://github.com/yu-rp/VisualPerceptionToken。
在大规模语言模型(LLM)的预训练过程中,训练稳定性始终是一个持续存在的挑战,尤其是对于Post-Norm Transformer这类架构,它们极易出现梯度爆炸和梯度消散问题。本文提出了一种新颖的方法——尺度分布解耦(Scale-Distribution Decoupling, SDD),通过显式地解耦全连接层中权重矩阵的尺度和分布来稳定训练过程。SDD采用归一化机制来调节激活值,并引入可学习的缩放向量以保持良好的梯度条件,从而有效防止梯度爆炸和梯度消散。这种分离通过确保梯度的稳定传播,显著提升了优化效率,特别是在深层网络中。实验结果表明,我们的方法在各种LLM架构上均能稳定训练,并在不同归一化配置下优于现有技术。此外,所提方法轻量且与现有框架兼容,为稳定LLM训练提供了一种实用的解决方案。代码已发布于https://github.com/kaihemo/SDD。
我们推出了WebGames,这是一个全面的基准测试套件,旨在通过50多个互动挑战来评估通用网页浏览AI代理。这些挑战特别设计为对人类而言简单直接,同时系统地测试当前AI系统在基础浏览器交互、高级输入处理、认知任务、工作流自动化及互动娱乐等方面的局限。我们的框架通过密封的测试环境消除了外部依赖,确保了可复现的评估与可验证的真实解。我们对包括GPT-4o、Claude Computer-Use、Gemini-1.5-Pro和Qwen2-VL在内的领先视觉语言模型进行了与人类表现的对比评估。结果显示,存在显著的能力差距,最佳AI系统的成功率仅为43.1%,而人类表现高达95.7%,这凸显了当前AI系统在处理人类认为直观的常见网页交互模式上的根本局限。该基准测试公开于webgames.convergence.ai,提供了一个轻量级的客户端实现,便于快速评估循环。凭借其模块化架构和标准化的挑战规范,WebGames为衡量更强大网页浏览代理的开发进展奠定了坚实基础。
为降低大型语言模型(LLMs)的计算与存储成本,模型压缩及键值缓存(KV Cache)压缩技术已引起研究者广泛关注。然而,现有方法主要聚焦于通过困惑度或常识问答与基础算术推理任务上的简单准确率来维持压缩后LLMs的性能。本文简要回顾了近期在检索增强生成、多步推理、外部工具应用及计算表达能力等方面取得的进展,这些进展显著提升了LLM的表现。继而,我们提出“彩票LLM”假说,即针对特定LLM及任务,存在一个规模更小的彩票LLM,借助多步推理与外部工具,能实现与原LLM相当的性能。基于对LLM当前发展状况的梳理,我们探讨并总结了彩票LLM与KV缓存压缩所必需的关键能力,这些能力在现有方法中尚未得到充分重视。
近年来,多模态大语言模型(MLLMs)在视觉识别任务中取得了快速进展。鉴于其有望融入众多关键应用场景,深入理解其视觉感知的局限性显得尤为重要。本研究探讨了MLLMs在回答图像相关问题时,是否能够像处理大尺寸视觉对象一样有效地感知微小细节。我们发现,模型的表现对问题中视觉主体的大小极为敏感,并通过干预研究进一步证实了这一影响的因果关系。随后,我们分析了MLLMs在回答视觉问题时的注意力分布模式,有趣的是,即便给出错误答案,它们也总能准确聚焦于相关区域。基于这些发现,我们提出了一种无需训练的视觉干预方法,该方法利用MLLM自身的内部知识,以注意力和梯度图的形式,增强其对微小视觉细节的感知能力。我们在两种广泛使用的MLLMs及七个视觉问答基准上评估了所提方法,结果表明,无需额外训练即可显著提升MLLMs的准确性。我们的研究结果揭示了将MLLMs应用于涉及微小细节的视觉识别任务时存在的风险,并指出利用模型内部状态进行视觉干预是缓解这一风险的有力途径。
大型语言模型(LLM)的评估通常依赖于准确率或人类偏好等聚合指标,这些指标在用户和提示之间进行平均。这种平均化掩盖了模型性能在用户和提示层面的具体差异。为解决这一问题,我们提出了提示到排行榜(P2L)方法,该方法能生成针对特定提示的排行榜。其核心思想是训练一个LLM,将自然语言提示作为输入,输出一组Bradley-Terry系数,进而用于预测人类偏好投票。由此产生的提示依赖型排行榜支持无监督的任务特定评估、查询到模型的最优路由、个性化以及模型优缺点的自动化评估。Chatbot Arena的数据表明,P2L比平均化排行榜更能捕捉语言模型性能的细微差别。此外,我们的发现表明,P2L生成提示特定评估的能力遵循与LLM自身观察到的幂律缩放相似的模式。2025年1月,基于此方法训练的路由器在Chatbot Arena排行榜上荣登榜首。我们的代码可通过以下GitHub链接获取:https://github.com/lmarena/p2l。
迭代数据生成与模型重训练被广泛用于对齐大型语言模型(LLMs)。这一过程通常涉及一个策略模型生成策略内响应,以及一个奖励模型指导训练数据的选择。直接偏好优化(DPO)通过构建选择与拒绝响应的偏好对,进一步强化了这一流程。在本研究中,我们旨在通过重复随机采样扩大策略内样本数量,以提升对齐性能。传统做法是选取奖励最高的样本作为选择项,奖励最低的作为拒绝项用于DPO。然而,我们的实验表明,随着样本量增加,这一策略会导致性能下降。针对此问题,我们从样本奖励的潜在正态分布视角出发,探讨了偏好数据的构建方法。我们将奖励空间划分为七个代表性点,并系统性地探索了所有21种(C_7^2)两两组合。通过在AlpacaEval 2上对四个模型的评估,我们发现,选择位于奖励位置μ - 2σ而非最低奖励的拒绝响应,对于实现最佳性能至关重要。最终,我们提出了一种可扩展的偏好数据构建策略,该策略随着样本规模的扩大持续提升模型性能。
本文介绍了LDGen,一种将大型语言模型(LLMs)融入现有文本到图像扩散模型的新方法,同时最大限度地减少计算需求。传统的文本编码器,如CLIP和T5,在多语言处理方面存在局限,阻碍了跨多种语言的图像生成。我们通过利用LLMs的先进能力来解决这些挑战。我们的方法采用了一种语言表示策略,应用分层标题优化和人类指令技术来提取精确的语义信息。随后,我们引入了一个轻量级适配器和一个跨模态精炼器,以促进LLMs与图像特征之间的高效特征对齐和交互。LDGen减少了训练时间,并实现了零样本多语言图像生成。实验结果表明,我们的方法在提示遵循和图像美学质量方面均超越了基线模型,同时无缝支持多种语言。页面:https://zrealli.github.io/LDGen。
听觉基础模型,包括听觉大语言模型(LLMs),在处理所有声音输入时一视同仁,与听者的感知无关。然而,人类的听觉感知本质上是选择性的:在复杂的听觉场景中,听者会专注于特定的说话者而忽略其他声音。现有模型未能融入这种选择性,限制了其生成与感知一致响应的能力。为解决这一问题,我们提出了意图感知的听觉场景理解(II-ASU),并展示了听觉注意力驱动的大语言模型(AAD-LLM),这是一个通过整合脑信号来推断听者注意力的原型系统。AAD-LLM通过引入颅内脑电图(iEEG)记录,扩展了听觉LLM,以解码听者正在关注哪位说话者,并据此优化响应。该模型首先从神经活动中预测被关注的说话者,然后基于这一推断的注意力状态来生成响应。我们在多说话者场景下对AAD-LLM进行了说话者描述、语音转录与提取以及问答任务的评估,主客观评分均显示其与听者意图的契合度显著提升。通过迈出意图感知听觉AI的第一步,本研究探索了一种新的范式,即让听者感知指导机器听觉,为未来以听者为中心的听觉系统开辟了道路。演示与代码请访问:https://aad-llm.github.io。
大型语言模型(LLMs)已成为人工智能(AI)领域的变革性工具,在文本生成、推理和决策制定等多样化任务中展现出卓越能力。尽管其成功主要得益于计算能力和深度学习架构的进步,但在不确定性量化、决策制定、因果推断及分布偏移等领域涌现的新问题,亟需统计学领域的深入参与。本文探讨了统计学家在LLMs发展中可能做出重要贡献的潜在领域,特别是那些旨在增强人类用户信任与透明度的方面。因此,我们聚焦于不确定性量化、可解释性、公平性、隐私保护、水印技术及模型适应等问题。同时,我们也思考了LLMs在统计分析中的可能角色。通过架起AI与统计学之间的桥梁,我们期望促进更深层次的合作,共同推进LLMs的理论基础与实践应用,最终塑造其在应对复杂社会挑战中的角色。
状态空间模型(SSMs),如Mamba,已成为长上下文序列建模中替代Transformer的高效方案。然而,尽管其应用日益广泛,SSMs仍缺乏那些对理解和改进基于注意力的架构至关重要的可解释性工具。尽管近期研究为Mamba的内部机制提供了洞见,但它们并未明确分解各token的贡献,导致在理解Mamba如何跨层选择性处理序列方面存在空白。在本研究中,我们提出了LaTIM,一种针对Mamba-1和Mamba-2的新型token级分解方法,实现了细粒度的可解释性。我们广泛评估了该方法在机器翻译、复制及基于检索的生成等多种任务中的表现,证明了其在揭示Mamba的token间交互模式方面的有效性。
我们推出Shakti VLM系列,这是一组参数规模为1B和4B的视觉语言模型,旨在解决多模态学习中的数据效率挑战。尽管近期视觉语言模型通过大量训练数据取得了强劲性能,但Shakti模型凭借架构创新,在较少token的情况下仍能获得竞争性结果。关键进展包括用于注意力稳定性的QK归一化、混合归一化技术以及增强的位置编码。三阶段训练策略进一步优化了学习效率。评估显示,Shakti-VLM-1B和Shakti-VLM-4B在文档理解、视觉推理、OCR提取及通用多模态推理方面表现卓越。我们的成果表明,高性能可通过模型设计与训练策略实现,而非单纯依赖数据量,这使Shakti成为企业级多模态任务的高效解决方案。
我们推出了WiCkeD,这是一种通过随机将选择题中的一个选项替换为“以上都不是”(这一方法常见于教育测试中)来提升现有多选题基准复杂度的简易方法。我们展示了WiCkeD能够自动应用于任何现有基准,使其更具挑战性。我们将WiCkeD应用于6个热门基准,并利用它评估了18个开源权重的大型语言模型(LLMs)。相较于数据集原始版本,模型性能平均下降了12.1个百分点。在三个MMLU数据集上采用思维链推理时,WiCkeD变体导致的性能下降与直接使用LLMs时观察到的下降幅度相近,表明WiCkeD对于具备增强推理能力的模型同样构成挑战。此外,WiCkeD还揭示出部分模型对额外推理需求更为敏感,为原始基准提供了额外的信息维度。我们已在https://github.com/ahmedselhady/wicked-benchmarks公开了代码与数据。
现代语言模型依赖于在预训练前确定的静态词汇表,这与人类语言学习过程中观察到的自适应词汇获取形成鲜明对比。为弥合这一差距,我们引入了词汇课程学习法,该方法通过相对于词汇大小的对数线性扩展增益来提升预训练效率。我们的方法在基于熵引导的词汇扩展与模型优化之间交替进行,使模型能够学习跨不同分词粒度的可迁移表示。这一方法自然催生了一种最优计算分配模式:较长的词元捕捉可预测内容,而较短的词元则聚焦于更复杂、更难预测的上下文。在小型GPT模型上的实验展示了改进的扩展效率,进一步证实了动态分词的有效性。我们公开了代码以支持后续研究,并计划将实验扩展至更大模型及多样领域。