每日精选AI研究论文及翻译
我们推出了CASS,这是首个面向跨架构GPU代码转译的大规模数据集与模型套件,涵盖源级(CUDA ↔ HIP)和汇编级(Nvidia SASS ↔ AMD RDNA3)的翻译任务。该数据集包含7万对经过验证的主机与设备代码对,填补了低层级GPU代码可移植性研究的关键空白。依托这一资源,我们训练了CASS系列领域专用语言模型,实现了95%的源代码翻译准确率和37.5%的汇编代码翻译准确率,显著超越了GPT-4o、Claude和Hipify等商业基线模型。在超过85%的测试案例中,我们生成的代码与原生代码性能相当,保持了运行时和内存行为的一致性。为了支持严谨的评估,我们引入了CASS-Bench,这是一个精心策划的基准测试集,覆盖16个GPU应用领域,并提供了真实执行结果。所有数据、模型及评估工具均已开源,旨在推动GPU编译器工具、二进制兼容性以及基于大语言模型的硬件翻译研究进展。数据集与基准测试集可在https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}获取,代码则发布于https://github.com/GustavoStahl/CASS{blue{GitHub}}。
我们推出Mutarjim,一款紧凑而强大的阿拉伯语-英语双向翻译语言模型。尽管大规模语言模型(LLMs)在包括机器翻译在内的自然语言处理任务中展现了显著进展,但小型模型同样具有潜力。基于这一洞察,我们以专为阿拉伯语和英语设计的Kuwain-1.5B语言模型为基础,开发了Mutarjim。尽管模型规模适中,Mutarjim通过优化的两阶段训练方法和精心筛选的高质量训练语料,在多个权威基准测试中超越了更大规模的模型。实验结果表明,Mutarjim在显著降低计算成本和训练需求的同时,能够与规模大至20倍的模型相媲美。此外,我们引入了Tarjama-25,这是一个旨在克服现有阿拉伯语-英语基准数据集局限性的新基准,如领域狭窄、句子长度短以及英语源偏倚等问题。Tarjama-25包含5000对经过专家审阅的句子对,覆盖广泛领域,提供了一个更为全面和平衡的评估框架。值得注意的是,Mutarjim在Tarjama-25的英语到阿拉伯语任务中实现了最先进的性能,甚至超越了GPT-4o mini等显著更大且专有的模型。我们公开了Tarjama-25,以支持未来研究并推动阿拉伯语-英语翻译系统的评估进步。
大型语言模型(LLMs)与多模态大型语言模型(MLLMs)的快速发展,历来依赖于通过将参数量从数百万提升至数千亿来实现以模型为中心的规模扩展,以此推动性能提升。然而,随着我们触及模型规模的硬件极限,主导的计算瓶颈已从根本上转向了长序列自注意力机制的二次方成本,这一现象如今由超长文本上下文、高分辨率图像及延长视频所驱动。在本立场论文中,我们主张高效人工智能的研究重心正从以模型为中心的压缩转向以数据为中心的压缩。我们将令牌压缩定位为新前沿,它通过减少模型训练或推理过程中的令牌数量来提升AI效率。通过全面分析,我们首先审视了各领域内长上下文AI的最新进展,并为现有的模型效率策略建立了一个统一的数学框架,阐明了为何令牌压缩在应对长上下文开销方面代表了一次关键的范式转变。随后,我们系统性地回顾了令牌压缩的研究现状,分析了其根本优势,并识别了其在多种场景下的显著优点。此外,我们深入剖析了当前令牌压缩研究面临的挑战,并勾勒了未来发展的光明方向。最终,我们的工作旨在为AI效率提供新视角,整合现有研究,并激发创新性发展,以应对日益增长的上下文长度对AI社区进步带来的挑战。
预训练为文本到图像(T2I)模型提供了广泛的世界知识,但仅凭此往往不足以实现高美学质量与精准对齐。因此,监督微调(SFT)对于进一步精炼模型至关重要。然而,其效果高度依赖于微调数据集的质量。现有的公开SFT数据集多聚焦于狭窄领域(如动漫或特定艺术风格),而构建高质量、通用目的的SFT数据集仍面临重大挑战。当前的筛选方法成本高昂,且难以识别真正具有影响力的样本。这一挑战因公开通用数据集的稀缺而更加复杂,领先模型往往依赖庞大、私有且文档记录不足的内部数据,阻碍了更广泛的研究进展。本文提出了一种创新方法,通过利用预训练生成模型作为高影响力训练样本的评估器,来创建通用目的的SFT数据集。我们应用此方法构建并发布了Alchemist,一个虽小(3,350个样本)但极为有效的SFT数据集。实验表明,Alchemist显著提升了五个公开T2I模型的生成质量,同时保持了多样性与风格。此外,我们还将微调后的模型权重向公众开放。
大型语言模型在通用任务上表现出色,但在逻辑密集、精度要求高的领域如金融、法律和医疗保健中评估其可靠性仍具挑战性。为此,我们推出了BizFinBench,这是首个专门设计用于评估LLM在现实世界金融应用中的基准测试。BizFinBench包含6,781条精心标注的中文查询,涵盖五个维度:数值计算、推理、信息抽取、预测识别和基于知识的问答,细分为九个子类别。该基准测试既包含客观指标也包含主观指标。我们还引入了IteraJudge,一种新颖的LLM评估方法,旨在减少LLM作为评估者在客观指标中的偏见。我们对25个模型进行了基准测试,包括专有和开源系统。大量实验表明,没有模型能在所有任务中占据主导地位。我们的评估揭示了不同的能力模式:(1) 在数值计算方面,Claude-3.5-Sonnet(63.18)和DeepSeek-R1(64.04)领先,而较小模型如Qwen2.5-VL-3B(15.92)显著落后;(2) 在推理方面,专有模型占据优势(ChatGPT-o3:83.58,Gemini-2.0-Flash:81.15),开源模型落后多达19.49分;(3) 在信息抽取方面,性能差异最大,DeepSeek-R1得分71.46,而Qwen3-1.7B仅得11.23;(4) 在预测识别方面,性能差异最小,顶级模型得分在39.16至50.00之间。我们发现,尽管当前LLM能够胜任常规金融查询,但在需要跨概念推理的复杂场景中表现欠佳。BizFinBench为未来研究提供了一个严格且与业务对齐的基准测试。代码和数据集可在https://github.com/HiThink-Research/BizFinBench获取。
当前的大型语言模型(LLMs)通常对所有问题采用固定的推理策略,无论其难度如何,这种策略或简或繁。这种对任务和推理过程复杂性变化的忽视导致了性能与效率之间的失衡。现有方法尝试通过训练无关的快速-慢速思维系统切换来应对不同难度的问题,但受限于粗粒度的解决方案级策略调整。为解决这一问题,我们提出了一种新颖的推理范式:过程级自适应思维模式切换(PATS),它使LLMs能够根据每一步的难度动态调整其推理策略,从而优化准确性与计算效率之间的平衡。我们的方法将过程奖励模型(PRMs)与束搜索相结合,融入了渐进式模式切换和错误步骤惩罚机制。在多样化的数学基准测试上的实验表明,我们的方法在保持适度令牌使用的同时实现了高准确率。本研究强调了过程级、难度感知的推理策略适应的重要性,为LLMs的高效推理提供了宝贵的洞见。
由大型语言模型(LLMs)赋能的具身代理在家庭物品重排任务中展现了强劲的性能。然而,这些任务主要集中于简化指令的单轮交互,未能真实反映为用户提供有意义帮助所面临的挑战。为了提供个性化协助,具身代理必须理解用户赋予物理世界的独特语义(如心爱的杯子、早餐习惯),通过利用先前的交互历史来解读动态的现实世界指令。然而,具身代理在利用记忆进行个性化协助方面的有效性仍鲜有探索。为填补这一空白,我们提出了MEMENTO,一个旨在全面评估记忆利用能力以提供个性化协助的具身代理评估框架。我们的框架包含一个两阶段记忆评估流程设计,能够量化记忆利用对任务表现的影响。该流程通过聚焦于目标解读中个性化知识的作用,评估代理在物品重排任务中对个性化知识的理解:(1)基于个人意义识别目标物品的能力(物品语义),以及(2)从用户一致模式(如日常习惯)中推断物品位置配置的能力(用户模式)。我们在多种LLMs上的实验揭示了记忆利用的显著局限性,即便是前沿模型如GPT-4o,在需要参考多重记忆时,特别是在涉及用户模式的任务中,性能下降了30.5%。这些发现,连同我们的详细分析和案例研究,为未来开发更有效的个性化具身代理提供了宝贵的见解。项目网站:https://connoriginal.github.io/MEMENTO
尽管大型推理模型在复杂任务上展现出强劲性能,它们却无法根据任务难度调整推理令牌的使用。这常常导致“过度思考”问题——即进行过多且不必要的推理——虽然通过人为干预控制令牌预算可能缓解这一问题,但这从根本上与实现完全自主AI的目标相悖。在本研究中,我们提出了自适应推理模型(ARM),一种能够根据当前任务自适应选择合适推理格式的模型。这些格式包括三种高效形式——直接回答、简短链式思维(Short CoT)和代码——以及一种更为详尽的格式,长链式思维(Long CoT)。为了训练ARM,我们引入了Ada-GRPO,这是对群体相对策略优化(GRPO)的一种改进,解决了传统GRPO中的格式崩溃问题。Ada-GRPO使ARM实现了高令牌效率,平均减少30%的令牌使用,最高可达70%,同时保持与仅依赖Long CoT的模型相当的性能。此外,它不仅通过减少令牌生成提高了推理效率,还带来了训练速度的2倍提升。除了默认的自适应模式外,ARM还支持两种额外的推理模式:1)指令引导模式,允许用户通过特殊令牌明确指定推理格式——当已知一批任务的合适格式时,此模式尤为理想。2)共识引导模式,该模式汇总三种高效格式的输出,并在出现分歧时采用Long CoT,优先考虑性能,尽管会使用更多令牌。
诸如OpenAI的o1和DeepSeek的R1等大型语言模型(LLMs),通过可验证奖励的强化学习(RLVR)在数学和编程等高级推理任务上表现出色,但在无需领域知识即可由人类解决的谜题上仍显不足。我们推出了Enigmata,这是首个专为提升LLMs谜题推理能力而设计的全面套件。它包含七个类别下的36项任务,每项任务均配备:1)一个能生成无限示例且难度可控的生成器,以及2)一个基于规则的验证器用于自动评估。这种生成器-验证器设计支持可扩展的多任务RL训练、细粒度分析及无缝RLVR集成。我们进一步提出了Enigmata-Eval,一个严格的基准测试,并开发了优化的多任务RLVR策略。我们训练的模型Qwen2.5-32B-Enigmata,在Enigmata-Eval、ARC-AGI(32.8%)和ARC-AGI 2(0.6%)等谜题推理基准上持续超越o3-mini-high和o1。同时,它在域外谜题基准和数学推理上也展现出良好的泛化能力,几乎没有多任务权衡的损失。当在更大模型如Seed1.5-Thinking(200亿激活参数和2000亿总参数)上训练时,Enigmata提供的谜题数据进一步提升了在高级数学和STEM推理任务(如AIME(2024-2025)、BeyondAIME和GPQA(Diamond))上的SoTA性能,展示了Enigmata出色的泛化优势。本工作为推进LLMs的逻辑推理提供了一个统一且可控的框架。本工作的资源可在https://seed-enigmata.github.io找到。
我们提出了一种新颖的框架,通过元学习的视角来理解大语言模型(LLMs)的推理能力。通过将推理轨迹概念化为对LLM参数的伪梯度下降更新,我们识别出LLM推理与多种元学习范式之间的相似性。我们将推理任务的训练过程形式化为一个元学习设置,其中每个问题被视为一个独立任务,而推理轨迹则作为适应模型参数的内循环优化。一旦在多样化的问题集上完成训练,LLM便能发展出可推广到未见问题的基础推理能力。大量的实证评估证实了LLM推理与元学习之间的紧密联系,从元学习的角度探讨了多个具有重要意义的问题。我们的工作不仅加深了对LLM推理的理解,还通过成熟的元学习技术为改进这些模型提供了实用的见解。
大型语言模型在自然语言处理任务中取得了显著成功,其中强化学习在使其适应特定应用方面发挥了关键作用。然而,在数学问题求解任务中为训练大型语言模型获取真实答案往往具有挑战性、成本高昂,有时甚至不可行。本研究深入探讨了利用格式和长度作为替代信号来训练大型语言模型进行数学问题求解的方法,从而绕过了对传统真实答案的需求。我们的研究表明,仅以格式正确性为中心的奖励函数在早期阶段就能带来与标准GRPO算法相当的性能提升。认识到仅依赖格式奖励在后期阶段的局限性后,我们引入了基于长度的奖励。由此产生的GRPO方法,通过利用格式-长度替代信号,不仅在某些场景下匹配甚至超越了依赖真实答案的标准GRPO算法的性能,在7B基础模型上实现了AIME2024数据集40.0%的准确率。通过系统探索和实验,本研究不仅为训练大型语言模型解决数学问题提供了一种实用方案,减少了对大量真实答案数据收集的依赖,还揭示了我们的无标签方法成功的关键:基础模型就像一位已经掌握了数学和逻辑推理技能的优秀学生,但在试卷上表现不佳,它只需养成良好的答题习惯就能在考试中取得优异成绩,换句话说,释放它已经具备的能力。
大型语言模型(LLMs)常表现出显著的偏见,例如对女性的偏见或对数字7的偏好。我们探讨了在多轮对话中,当LLMs能够观察到自己对同一问题的先前回答时,是否能够输出偏见较少的答案。为了理解哪些类型的问题更容易引发偏见性回答,我们在提出的涵盖9个主题、分为三种类型的问题集上测试了LLMs:(1)主观性;(2)随机性;以及(3)客观性。有趣的是,在多轮对话中,面对寻求随机、无偏见答案的问题时,LLMs能够实现“自我去偏”。此外,我们提出了B-score这一新颖指标,它在检测对主观性、随机性、简单及困难问题的偏见方面表现有效。在MMLU、HLE和CSQA数据集上,相较于仅使用语言化置信度分数或单轮回答频率,利用B-score显著提升了LLM答案的验证准确率(即接受LLM的正确答案并拒绝错误答案)。代码和数据可在以下网址获取:https://b-score.github.io。
通过可验证奖励的强化学习(RLVR)训练大型语言模型(LLMs)进行复杂推理是有效的,但其依赖于昂贵且领域特定的监督,存在局限性。我们探索了内部反馈强化学习(RLIF),这一框架使LLMs能够从内在信号中学习,无需外部奖励或标注数据。我们提出了Intuitor,一种RLIF方法,它利用模型自身的置信度,即自我确定性,作为唯一的奖励信号。Intuitor在群体相对策略优化(GRPO)中用自我确定性评分替代了外部奖励,实现了完全无监督的学习。实验表明,Intuitor在数学基准测试中与GRPO表现相当,同时在代码生成等跨领域任务上展现出更优的泛化能力,且无需黄金解决方案或测试用例。我们的研究结果表明,模型的内在信号能够驱动跨领域的有效学习,为在无法获得可验证奖励的自主AI系统中提供了一种可扩展的替代方案。代码可在https://github.com/sunblaze-ucb/Intuitor获取。
人类生成的奖励信号对于将生成模型与人类偏好对齐至关重要,它们不仅指导训练过程,还影响推理阶段的评估。尽管作为代理评估者的大型语言模型(LLMs),即“LLM-as-a-Judge”,显著降低了人工标注的成本,但它们通常需要大量特定模态的训练数据,并且在跨多种多模态任务时泛化能力有限。本文提出Flex-Judge,一种基于推理引导的多模态评判模型,它利用极少的文本推理数据,就能在多种模态和评估格式间实现稳健的泛化。我们的核心洞见是,结构化的文本推理解释本质上编码了可泛化的决策模式,从而能够有效迁移至涉及图像或视频等多模态的评判任务中。实证结果表明,Flex-Judge尽管在显著更少的文本数据上训练,却能与最先进的商业API及经过大量训练的多模态评估器相媲美甚至超越。值得注意的是,Flex-Judge在分子等模态上展现出广泛影响力,这些领域往往缺乏全面的评估基准,凸显了其在资源受限场景中的实用价值。我们的框架强调,基于推理的文本监督作为一种强大且成本效益高的替代方案,相较于传统的标注密集型方法,极大地推动了可扩展的多模态“模型即评判者”的发展。
大型语言模型(LLMs)在自动化科学假设生成方面展现出潜力,然而现有方法主要产生的是缺乏关键方法论和实验细节的粗粒度假设。我们引入并正式定义了细粒度科学假设发现这一新任务,该任务要求从初步的粗粒度研究方向生成详细且可实验操作的假设。我们将此问题框架化为一个组合优化问题,并探讨在最大限度利用LLMs能力时,其解决该问题的上限。具体而言,我们探索了四个基础性问题:(1)如何最佳地利用LLM的内部启发式方法,以生成其自身基于内部评分认为最有前景的细粒度假设,从而在假设空间上定义一个潜在的奖励景观;(2)此类由LLM判断为更优的假设是否与真实假设表现出更强的对齐性;(3)使用一组能力相近的多样化LLMs来塑造奖励景观,是否比仅使用其中最强LLM的重复实例定义奖励景观能带来更好的结果;(4)一组相同的LLMs是否比单一LLM提供更可靠的奖励景观。针对这些问题,我们提出了一种分层搜索方法,该方法逐步提出并将细节整合到假设中,从一般概念推进到具体的实验配置。我们展示了这一分层过程能够平滑奖励景观,并实现更有效的优化。基于最新化学文献中专家标注的细粒度假设新基准的实证评估表明,我们的方法始终优于强基线模型。
大型语言模型(LLMs)已取得显著进展,但其日益增强的能力也使其面临旨在绕过安全对齐的高度灵活的越狱攻击。尽管现有许多防御措施专注于已知攻击类型,但更为关键的是为LLMs应对部署期间可能出现的未知攻击做好准备。为此,我们提出了一种终身安全对齐框架,使LLMs能够持续适应新出现的和不断演变的越狱策略。该框架引入了一种竞争机制,包含两个组件:一个元攻击者(Meta-Attacker),其训练目标是主动发现新颖的越狱策略;以及一个防御者(Defender),其训练目标是抵御这些攻击。为了有效预热元攻击者,我们首先利用GPT-4o API从大量越狱相关研究论文中提取关键见解。通过迭代训练,第一轮元攻击者在仅使用单轮攻击的情况下,对RR实现了73%的攻击成功率(ASR),对LAT实现了57%的转移ASR。与此同时,防御者逐步提升其鲁棒性,最终将元攻击者的成功率降至仅7%,从而在开放环境中实现更安全、更可靠的LLMs部署。代码可在https://github.com/sail-sg/LifelongSafetyAlignment获取。
多模态大语言模型(MLLMs)近期在视觉任务上取得了显著进展,包括语义场景理解与图文对齐,其推理变体在涉及数学与逻辑的复杂任务中表现更优。然而,这些模型在需要细粒度视觉理解的推理任务上的能力尚未得到充分评估。为填补这一空白,我们推出了ReasonMap基准,旨在评估MLLMs在细粒度视觉理解与空间推理方面的能力。ReasonMap涵盖了来自13个国家30个城市的高分辨率交通地图,并包含1,008个问答对,涉及两种问题类型和三种模板。此外,我们设计了一个两级评估流程,以准确判断答案的正确性与质量。对15个流行MLLMs(包括基础版与推理版)的全面评估揭示了一个反直觉的现象:在开源模型中,基础模型优于推理模型,而在闭源模型中则呈现相反趋势。同时,当视觉输入被遮蔽时,模型性能普遍下降,这表明尽管MLLMs能够利用先验知识回答部分问题,但要在细粒度视觉推理任务上取得优异表现,仍需依赖真实的视觉感知。我们的基准研究为视觉推理提供了新见解,并有助于探究开源与闭源模型之间的差距。
尽管仅解码器语言模型占据主导地位,编码器在资源受限的应用场景中仍不可或缺。我们推出了ModernGBERT(134M、1B),这是一个完全透明的德语编码器模型家族,从头开始训练,并融入了ModernBERT的架构创新。为了评估从头训练编码器的实际权衡,我们还提出了LL\"aMmlein2Vec(120M、1B、7B),这是一个通过LLM2Vec从德语仅解码器模型衍生而来的编码器家族。我们在自然语言理解、文本嵌入和长上下文推理任务上对所有模型进行了基准测试,实现了专用编码器与转换解码器之间的可控对比。我们的结果表明,ModernGBERT 1B在性能和参数效率方面均优于先前最先进的德语编码器以及通过LLM2Vec适配的编码器。所有模型、训练数据、检查点和代码均已公开,以透明、高性能的编码器模型推动德语NLP生态系统的发展。
视觉生成与理解是人类智能中两个紧密相连的方面,然而在机器学习领域,它们传统上被视为独立的任务。本文提出Jodi,一种扩散框架,通过联合建模图像域与多个标签域,统一了视觉生成与理解。具体而言,Jodi基于线性扩散变换器构建,并配备角色切换机制,使其能够执行三类特定任务:(1)联合生成,模型同时生成图像及多个标签;(2)可控生成,根据任意标签组合生成图像;(3)图像感知,从给定图像中一次性预测多个标签。此外,我们推出了Joint-1.6M数据集,包含从公开来源收集的20万张高质量图像、7个视觉领域的自动标注以及由大语言模型生成的描述。大量实验表明,Jodi在生成与理解任务上均表现出色,并展现出对更广泛视觉领域的强大扩展能力。代码已发布于https://github.com/VIPL-GENUN/Jodi。
随着大型语言模型(LLMs)在软件开发工作流程中变得不可或缺,其生成结构化输出的能力变得至关重要。我们推出了StructEval,这是一个全面评估LLMs在生成非可渲染(JSON、YAML、CSV)和可渲染(HTML、React、SVG)结构化格式方面能力的基准。与以往基准不同,StructEval通过两种范式系统地评估了跨多种格式的结构保真度:1)生成任务,即从自然语言提示中生成结构化输出;2)转换任务,即在结构化格式之间进行转换。我们的基准涵盖了18种格式和44种任务类型,并引入了格式遵循和结构正确性的新颖度量标准。结果显示,性能差距显著,即便是最先进的模型如o1-mini,平均得分也仅为75.58,而开源替代品则落后约10分。我们发现生成任务比转换任务更具挑战性,生成正确的视觉内容比仅生成纯文本结构更为困难。
站在2025年这一追求通用人工智能(AGI)的关键节点,强化微调(RFT)在提升大型语言模型(LLMs)推理能力方面展现出显著潜力,并催生了诸如OpenAI-o1和DeepSeek-R1等尖端AI模型的诞生。此外,RFT在增强多模态大型语言模型(MLLMs)推理能力上的高效应用,已引起学术界的广泛关注。在本立场文件中,我们主张强化微调是推动多模态大型语言模型推理能力的关键动力。首先,我们为对此领域感兴趣的研究者详细介绍了必备的基础背景知识。接着,我们精心总结了RFT在提升MLLMs推理能力方面的五大改进点:多样化的模态、广泛的任务与领域、更优的训练算法、丰富的基准测试以及蓬勃发展的工程框架。最后,我们提出了未来研究可能考虑的五个有前景的方向。我们期望这份立场文件能在AGI发展的这一关键时刻,为学术界提供宝贵的洞见。关于RFT应用于MLLMs的研究成果总结,可访问https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs获取。
长时程视频-音频推理与细粒度像素理解对全模态模型提出了相互矛盾的要求:密集的时间覆盖需要大量低分辨率帧,而精确的定位则要求高分辨率输入。我们通过双系统架构来解决这一权衡问题:全局推理系统以较低的空间成本选择信息丰富的关键帧并重写任务,而细节理解系统则在选定的高分辨率片段上执行像素级定位。由于“最优”关键帧选择和任务重构具有模糊性且难以监督,我们将其表述为强化学习(RL)问题,并提出了Omni-R1,这是一个基于群体相对策略优化的端到端RL框架。Omni-R1通过与细节理解系统的在线协作获得分层奖励,从而训练全局推理系统,仅需在小任务划分上进行一轮RL训练。 在两个具有挑战性的基准测试——指称音频-视觉分割(RefAVS)和推理视频对象分割(REVOS)上的实验表明,Omni-R1不仅超越了强大的监督基线,还优于专门的最先进模型,同时显著提高了跨域泛化能力并减轻了多模态幻觉。我们的成果展示了RL在大规模全模态推理中的首次成功应用,并指明了通向通用基础模型的可扩展路径。
我们提出了REARANK,一种基于大语言模型(LLM)的列表式推理重排序代理。REARANK在重排序前进行显式推理,显著提升了性能与可解释性。通过强化学习与数据增强技术,REARANK在多个主流信息检索基准测试中较基线模型取得了显著进步,尤其值得注意的是,仅需179个标注样本即可实现。基于Qwen2.5-7B构建的REARANK-7B,在领域内及跨领域基准测试中展现出与GPT-4相媲美的性能,并在推理密集型的BRIGHT基准测试中甚至超越了GPT-4。这些成果验证了我们方法的有效性,并凸显了强化学习在提升LLM重排序推理能力方面的潜力。
离散扩散模型近期已成为离散数据建模领域的一个前沿范式。然而,现有方法在训练过程中通常依赖于固定的转移速率矩阵,这不仅限制了潜在表征的表达能力——这是变分方法的核心优势之一,也制约了整体设计空间的拓展。针对这些局限,我们提出了离散马尔可夫桥(Discrete Markov Bridge),一个专为离散表征学习设计的新颖框架。该框架基于两大核心组件构建:矩阵学习与评分学习。我们进行了严谨的理论分析,为矩阵学习建立了正式的性能保证,并证明了整个框架的收敛性。此外,我们还分析了该方法的空间复杂度,解决了先前研究中指出的实际限制问题。广泛的实证评估验证了所提离散马尔可夫桥的有效性,其在Text8数据集上实现了1.38的证据下界(ELBO),超越了现有基准模型。同时,该模型在CIFAR-10数据集上也展现了竞争力,取得了与专门针对图像生成的先进方法相媲美的成果。
我们提出了一种用于实时交互式流体模拟的神经物理系统。传统的基于物理的方法虽然精确,但计算量大且存在延迟问题。近期的机器学习方法在保持保真度的同时降低了计算成本;然而,大多数方法仍无法满足实时使用的延迟要求,且缺乏对交互应用的支持。为弥合这一差距,我们引入了一种新颖的混合方法,该方法整合了数值模拟、神经物理和生成控制。我们的神经物理系统通过采用经典数值求解器的备用保障机制,同时追求低延迟模拟和高物理保真度。此外,我们开发了一种基于扩散的控制器,该控制器采用逆向建模策略进行训练,以生成用于流体操控的外部动态力场。我们的系统在多样化的2D/3D场景、材料类型及障碍物交互中展现出稳健性能,实现了高帧率下的实时模拟(延迟为11~29%),并支持通过用户友好的手绘草图引导流体控制。我们朝着实用、可控且物理可信的实时交互式流体模拟迈出了重要一步。我们承诺在论文被接受后发布模型和数据。
大型语言模型(LLMs)在数学和编程领域展现出了卓越的推理能力,这通常得益于对由更强模型生成的思维链(CoTs)进行后训练。然而,现有筛选此类训练数据的策略主要依赖于启发式方法,限制了其泛化能力,并难以捕捉数据中的微妙之处。为解决这些局限,我们利用影响函数系统地归因LLMs在数学和编程上的推理能力至单个训练样本、序列及标记,从而深入理解有效数据的特征。基于影响的推理归因(Infra)揭示了数学与编程任务间非平凡的跨领域效应:高难度数学示例能同时提升数学与编程推理,而低难度编程任务则最有效地促进编程推理。基于这些发现,我们提出了一种简单而有效的数据集重加权策略,通过翻转任务难度,使AIME24准确率从10%翻倍至20%,并将Qwen2.5-7B-Instruct在LiveCodeBench上的准确率从33.8%提升至35.3%。此外,我们的细粒度归因显示,序列级的探索行为增强了数学与编程的推理表现,而标记级的影响模式在数学与编程推理中各有侧重:前者偏好自然语言逻辑连接词,后者则强调结构性语法。
本综述对AI辅助软件开发中的两大新兴范式——氛围编码与代理编码——进行了全面分析。尽管两者均依托于大型语言模型(LLMs),但在自主性、架构设计及开发者角色上存在本质差异。氛围编码强调通过基于提示的对话式工作流实现直觉化的人机交互,支持构思、实验与创意探索。相比之下,代理编码则通过目标驱动的代理实现自主软件开发,这些代理能够规划、执行、测试并迭代任务,所需人工干预极少。我们提出了一套详尽的分类体系,涵盖概念基础、执行模型、反馈循环、安全机制、调试策略及现实工具生态系统。通过对比工作流分析及20个详细用例,我们展示了氛围系统在早期原型设计与教育领域的优势,而代理系统则在企业级自动化、代码库重构及CI/CD集成方面表现卓越。此外,我们探讨了混合架构中的新兴趋势,即自然语言接口与自主执行管道的结合。最后,我们为代理式AI的未来发展绘制了路线图,概述了构建可信、可解释、协作系统所需的基础设施。我们的研究结果表明,成功的AI软件工程不在于选择单一范式,而在于在统一的人本开发生命周期中协调二者的优势。
现代大型推理模型通过采用复杂的推理策略,展现出令人印象深刻的问题解决能力。然而,这些模型往往难以在效率与效果之间取得平衡,常常为简单问题生成不必要的冗长推理链。在本研究中,我们提出了AdaCtrl,一个新颖的框架,旨在支持难度感知的自适应推理预算分配,并允许用户显式控制推理深度。AdaCtrl根据自我评估的问题难度动态调整推理长度,同时允许用户手动控制预算,以优先考虑效率或效果。这一目标通过两阶段训练管道实现:首先是冷启动微调阶段,培养模型自我感知难度并调整推理预算的能力;随后是难度感知的强化学习(RL)阶段,该阶段在在线训练过程中根据模型能力的演进,优化其自适应推理策略并校准难度评估。为了便于用户直观交互,我们设计了显式的长度触发标签,作为预算控制的自然界面。实验结果表明,与同样包含微调和RL的标准训练基线相比,AdaCtrl根据估计的难度调整推理长度,在需要精细推理的更具挑战性的AIME2024和AIME2025数据集上,分别减少了10.06%和12.14%的响应长度,同时在MATH500和GSM8K数据集上,对于更简洁响应已足够的情况,分别减少了62.05%和91.04%的响应长度,并实现了性能提升。此外,AdaCtrl还支持用户精确控制推理预算,从而生成满足特定需求的定制化响应。
大型推理模型(LRMs)因生成最终答案所需的思维链(CoT)过长而受到批评,导致首词延迟和整体延迟较高。通常,LRMs的CoT混合了多个思维单元;每个单元试图为原始查询生成一个候选答案。因此,提高效率的一个自然思路是减少思维单元的数量。然而,传统CoT中的思维单元无法被明确管理,使得这一目标颇具挑战性。本文引入了多轮分解(MinD)方法,将传统CoT解码为一系列明确、结构化且轮次化的交互,以弥合这一差距。在MinD中,模型对查询提供多轮响应,每轮包含一个思维单元并产生相应的答案。后续轮次可以对先前轮次的思维和答案部分进行反思、验证、修正或探索替代方案。这不仅使答案的传递更为迅速,还实现了对迭代推理过程的显式控制(即用户可在任意轮次停止或继续)。我们采用监督微调(SFT)后接强化学习(RL)的范式来实现MinD。首先,通过提示另一个大语言模型(LLM)将LRM的输出重述为多轮格式,然后使用此类数据对LRM进行调优。观察到调优后的模型倾向于消耗比原始模型更多的词元(可能由于多轮格式引入了额外的答案词元),我们主张利用如GRPO等RL算法,优先选择轮次较少且正确的输出。在MATH数据集上使用R1-Distill模型进行训练后,MinD能够在保持MATH-500、AIME24、AMC23和GPQA-Diamond等推理基准上竞争力的同时,实现输出词元使用量和首词时间(TTFT)高达约70%的减少。
视觉自回归(VAR)建模因其创新的逐尺度预测方法而备受关注,该方法在效率、可扩展性和零样本泛化能力方面带来了显著提升。然而,VAR固有的从粗到细的方法论导致推理过程中键值(KV)缓存呈指数级增长,造成了大量的内存消耗和计算冗余。为解决这些瓶颈,我们提出了ScaleKV,一种专为VAR架构设计的新型KV缓存压缩框架。ScaleKV基于两个关键观察:不同Transformer层对缓存的需求各异,以及不同尺度下的注意力模式存在显著差异。基于这些洞察,ScaleKV将Transformer层划分为两类功能组:草稿层和精修层。草稿层在多个尺度上展现出分散的注意力,因此需要更大的缓存容量。相反,精修层将注意力集中于当前令牌图以处理局部细节,因而所需的缓存容量大幅减少。ScaleKV通过识别特定尺度的草稿层和精修层,优化了多尺度推理流程,实现了针对各尺度的差异化缓存管理。在最新的文本到图像VAR模型家族Infinity上的评估表明,我们的方法在保持像素级保真度的同时,将所需的KV缓存内存有效降低至10%。
口语不仅通过词汇传达意义,还借助语调、情感和重音来表达。句子重音,即对句中特定词汇的强调,对于传达说话者意图至关重要,这一现象在语言学领域已得到广泛研究。本文中,我们介绍了WHISTRESS,一种无需对齐的方法,用于增强转录系统的句子重音检测能力。为支持这一任务,我们提出了TINYSTRESS-15K,这是一个可扩展的、为句子重音检测任务设计的合成训练数据集,其生成过程完全自动化。我们在TINYSTRESS-15K上训练WHISTRESS,并与多个竞争基线模型进行对比评估。结果显示,WHISTRESS在训练或推理过程中无需额外输入先验信息的情况下,性能优于现有方法。尤为值得注意的是,尽管基于合成数据训练,WHISTRESS在多样化的基准测试中展现了强大的零样本泛化能力。项目页面:https://pages.cs.huji.ac.il/adiyoss-lab/whistress。
长链思维(CoT)显著提升了大型语言模型(LLM)的推理能力。然而,冗长的推理轨迹导致了效率低下和首词生成时间(TTFT)的增加。我们提出了一种新颖的训练范式,利用强化学习(RL)引导推理型LLM在多跳问题中交替进行思考与回答。我们观察到,模型天生具备交替推理的能力,这一能力可通过RL进一步增强。我们引入了一种简单而有效的基于规则的奖励机制,以激励正确的中间步骤,通过利用交替推理过程中产生的中间信号,引导策略模型走向正确的推理路径。在五个多样化数据集和三种RL算法(PPO、GRPO和REINFORCE++)上进行的广泛实验表明,相较于传统的“思考-回答”推理方式,我们的方法在不依赖外部工具的情况下,实现了持续的性能提升。具体而言,该方法平均减少了超过80%的TTFT,并在Pass@1准确率上提升了高达19.3%。此外,仅基于问答和逻辑推理数据集训练的方法,在复杂推理数据集如MATH、GPQA和MMLU上展现了强大的泛化能力。我们还进行了深入分析,揭示了条件奖励建模中的若干宝贵洞见。
以数据为中心的蒸馏技术,包括数据增强、筛选与混合,为创建更小巧、高效且保持强大推理能力的学生大语言模型(LLMs)开辟了一条前景广阔的道路。然而,目前尚缺乏一个全面的基准来系统评估每种蒸馏方法的效果。本文介绍了DC-CoT,这是首个从方法、模型和数据三个维度探究思维链(CoT)蒸馏中数据操作的数据中心化基准。通过运用多种教师模型(如o4-mini、Gemini-Pro、Claude-3.5)及学生架构(如3B、7B参数),我们严格评估了这些数据操作对学生模型在多个推理数据集上表现的影响,重点关注了分布内(IID)与分布外(OOD)泛化能力,以及跨领域迁移效果。我们的研究成果旨在提供可操作的洞见,确立通过数据中心化技术优化CoT蒸馏的最佳实践,从而推动开发更易获取且能力更强的推理模型。数据集可在https://huggingface.co/datasets/rana-shahroz/DC-COT获取,代码则共享于https://anonymous.4open.science/r/DC-COT-FF4C/。
视觉-语言模型(VLMs)在多项直接的多模态任务中表现出色,但在将这种能力转化为互动性强、视觉丰富的环境(如游戏)中的有效决策时却面临困难。这种“知与行”的差距显著限制了它们作为自主代理的潜力,顶尖的VLMs在简单游戏中往往表现不佳。为解决这一问题,我们推出了VLM-Gym,这是一个精心设计的强化学习(RL)环境,包含多样化的视觉游戏,具备统一的接口和可调节、组合的难度,专为可扩展的多游戏并行训练而打造。借助VLM-Gym,我们训练了G0模型,采用纯RL驱动的自我进化,展现了感知与推理能力的涌现模式。为进一步应对游戏多样性带来的挑战,我们开发了G1模型。G1在RL微调前引入了感知增强的冷启动策略。最终,我们的G1模型在所有游戏中均超越了其导师,并超越了如Claude-3.7-Sonnet-Thinking等领先的专有模型。系统分析揭示了一个有趣的发现:在RL训练过程中,感知与推理能力相互促进,共同提升。我们已发布包含VLM-Gym和RL训练的源代码于https://github.com/chenllliang/G1,以促进未来研究,推动VLMs成为更强大的互动代理。
得益于在大规模自然场景图像上通过对比学习训练的视觉编码器,大型多模态模型(LMMs)在各类视觉感知任务中取得了显著成就。然而,对比学习基于概括性描述的内在局限性,从根本上制约了模型在精细推理,尤其是几何问题求解等关键场景中的能力。为提升几何理解能力,我们提出了一种新颖的视觉编码器硬负样本对比学习框架,该框架结合了基于图像的对比学习——利用通过扰动图表生成代码创建的生成式硬负样本,以及基于文本的对比学习——采用由修改后的几何描述衍生的规则负样本和基于标题相似度筛选的检索负样本。我们采用这一强负样本学习方法训练CLIP,即MMCLIP(多模态数学CLIP),随后训练一个用于几何问题求解的LMM。实验表明,我们训练的模型MMGeoLM在三个几何推理基准测试上显著优于其他开源模型。即便规模仅为7B,它也能与GPT-4o等强大的闭源模型相媲美。我们进一步研究了不同负样本构建方法及负样本数量对LMM几何推理性能的影响,得出了富有成效的结论。代码与数据集已发布于https://github.com/THU-KEG/MMGeoLM。
近期视频生成模型的进展引发了对能够模拟真实环境的世界模型的广泛关注。尽管导航领域已得到深入探索,但模拟现实世界物理力量的、具有物理意义的交互行为仍鲜有研究。本研究中,我们探讨了将物理力量作为视频生成的控制信号,并提出了一种力提示机制,使用户能够通过局部点力(如轻触植物)和全局风力场(如风吹动布料)与图像进行交互。我们展示了这些力提示能够利用原始预训练模型中的视觉与运动先验,无需在推理阶段使用任何3D资源或物理模拟器,即可使视频对物理控制信号作出逼真响应。力提示面临的主要挑战在于获取高质量的力-视频配对训练数据,这在实际中因难以获取力信号而受限,在合成数据中则受限于物理模拟器的视觉质量与领域多样性。我们的关键发现是,当视频生成模型适应于遵循由Blender合成的视频中的物理力条件时,即使仅有少量物体的演示,也能展现出卓越的泛化能力。我们的方法能够生成模拟多种几何形状、场景和材质受力的视频。我们还尝试理解这种泛化能力的来源,并通过消融实验揭示了两大关键要素:视觉多样性和训练过程中特定文本关键词的使用。我们的方法仅在四块A100 GPU上训练约一天,使用约1.5万个训练样本,便在力的遵循度和物理真实感上超越了现有方法,使世界模型更接近真实世界的物理交互。我们在项目页面上发布了所有数据集、代码、权重及交互式视频演示。
近期AI代理的进展展现了其在推动和支持科学发现方面日益增长的潜力。本研究中,我们推出了MLR-Bench,一个用于评估AI代理在开放式机器学习研究上的综合基准。MLR-Bench包含三大核心组件:(1) 源自NeurIPS、ICLR及ICML研讨会的201项研究任务,涵盖多样化的机器学习主题;(2) MLR-Judge,一个结合了基于大语言模型(LLM)评审员与精心设计的评审标准的自动化评估框架,用以评定研究质量;(3) MLR-Agent,一个模块化代理框架,能够通过四个阶段完成研究任务:创意生成、提案制定、实验执行及论文撰写。我们的框架不仅支持对这些不同研究阶段的逐步评估,也支持对最终研究论文的端到端评价。随后,我们利用MLR-Bench评估了六种前沿LLM及一款高级编码代理,发现尽管LLM在生成连贯想法和结构良好的论文方面表现优异,但当前的编码代理在多数情况下(例如80%的案例中)会产生虚构或未经证实的实验结果——这构成了科学可靠性的重大障碍。我们通过人工评估验证了MLR-Judge,显示其与专家评审员高度一致,支持其作为可扩展研究评估工具的潜力。我们开源了MLR-Bench,旨在帮助社区对AI研究代理进行基准测试、诊断与改进,朝着可信赖且透明的科学发现迈进。
本文介绍了InfantAgent-Next,这是一种能够以多模态方式与计算机交互的通用型智能体,涵盖文本、图像、音频和视频。与现有方法不同,这些方法要么围绕单一大型模型构建复杂的工作流程,要么仅提供工作流程的模块化,我们的智能体在高度模块化的架构中集成了基于工具和纯视觉的智能体,使得不同模型能够以逐步协作的方式解决解耦任务。我们的通用性体现在不仅能够评估纯视觉的现实世界基准(如OSWorld),还能评估更通用或工具密集型的基准(例如GAIA和SWE-Bench)。具体而言,我们在OSWorld上达到了7.27%的准确率,高于Claude-Computer-Use。代码和评估脚本已在https://github.com/bin123apple/InfantAgent开源。
随着大型语言模型(LLMs)计算需求的日益增长,高效的推理与激活策略变得愈发关键。尽管近期如专家混合(Mixture-of-Experts, MoE)等方法通过选择性激活提升了效率,但需专门训练,而无需训练的稀疏激活方法凭借其即插即用的设计,提供了更广泛的适用性和更优的资源效率。然而,现有许多方法仅依赖隐藏状态的大小来决定激活,导致较高的近似误差和次优的推理精度。为克服这些局限,我们提出了WINA(权重信息神经元激活),一种新颖、简单且无需训练的稀疏激活框架,它同时考虑了隐藏状态的大小及权重矩阵列向量的ℓ₂范数。我们证明,这一策略能获得最优的近似误差界限,其理论保证比现有技术更为严格。实证表明,在相同稀疏度下,WINA在多种LLM架构和数据集上的平均性能比最先进方法(如TEAL)高出最多2.94%。这些成果确立了WINA在LLM推理中无需训练稀疏激活方法的新性能前沿,推动了该领域的发展,并为高效推理设立了坚实的基准。源代码已发布于https://github.com/microsoft/wina。
自动语音识别(ASR)领域的最新进展主要得益于大规模语音语料库的积累。然而,在资源有限的情况下,将覆盖范围扩展至多种语言仍是一项艰巨挑战。本文提出了一种名为“语音回译”的可扩展流程,该流程通过现成的文本转语音(TTS)模型将大规模文本语料库转化为合成语音,从而提升多语言ASR模型的性能。我们证明,仅需数十小时的真实转录语音即可有效训练TTS模型,生成数百倍于原始数据量的高质量合成语音。为评估合成语音质量,我们开发了一套基于可懂度的评估框架,并确立了合成数据何时有益于ASR训练的明确阈值。利用语音回译技术,我们在十种语言中生成了超过50万小时的合成语音,并继续对Whisper-large-v3进行预训练,实现了平均转录错误率降低超过30%的成果。这些结果凸显了语音回译技术在增强多语言ASR系统方面的可扩展性和有效性。
多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但在空间推理方面仍显著落后于人类。我们通过变换驱动的视觉推理(TVR)这一挑战性任务来探究这一差距,该任务要求在不同视角下识别图像中物体的变换。尽管传统的监督微调(SFT)在跨视图场景中无法生成连贯的推理路径,而稀疏奖励的强化学习(RL)则面临探索效率低下和收敛缓慢的问题。针对这些局限,我们提出了STAR-R1,一个新颖的框架,它将单阶段RL范式与专为TVR设计的细粒度奖励机制相结合。具体而言,STAR-R1奖励部分正确性,同时惩罚过度枚举和消极不作为,从而实现高效探索和精确推理。全面评估表明,STAR-R1在所有11项指标上均达到了最先进的性能,在跨视图场景中比SFT高出23%。进一步分析揭示了STAR-R1的拟人行为,并突显了其通过比较所有对象来提升空间推理的独特能力。我们的工作为推进MLLMs和推理模型的研究提供了关键见解。代码、模型权重及数据将公开于https://github.com/zongzhao23/STAR-R1。
尽管掩码扩散模型(MDMs),如LLaDA,为语言建模展示了一个颇具前景的范式,但在通过强化学习将这些模型与人类偏好对齐方面,相关努力相对较少。这一挑战主要源于基于证据下界(ELBO)的似然估计在偏好优化过程中存在的高方差问题。为解决此问题,我们提出了方差缩减偏好优化(VRPO)框架,该框架正式分析了ELBO估计器的方差,并推导出偏好优化梯度的偏差和方差界限。基于这一理论基础,我们引入了无偏方差缩减策略,包括最优蒙特卡洛预算分配和对立采样,这些策略显著提升了MDM对齐的性能。我们通过将VRPO应用于LLaDA,展示了其有效性,所得模型LLaDA 1.5在数学(GSM8K +4.7)、代码(HumanEval +3.0, MBPP +1.8)及对齐基准(IFEval +4.0, Arena-Hard +4.3)上均一致且显著超越了仅使用监督微调的前代模型。此外,与强大的语言MDMs和ARMs相比,LLaDA 1.5在数学表现上展现出高度竞争力。项目页面:https://ml-gsai.github.io/LLaDA-1.5-Demo/。
大型语言模型在模式匹配方面表现出色,但在系统性组合泛化上往往力有未逮。我们提出了覆盖原则:一个以数据为中心的框架,表明主要依赖模式匹配进行组合任务的模型无法可靠地泛化到在相同上下文中使用能产生相同结果的片段替换之外。我们证明该框架对Transformer的泛化能力具有强大的预测力。首先,我们推导并实证验证了双跳泛化所需的训练数据量至少随标记集大小呈二次方增长,且训练数据效率不会随参数规模扩大20倍而提升。其次,对于存在路径歧义的组合任务,即一个变量通过多条计算路径影响输出的情况,我们展示了Transformer学习到的上下文依赖状态表示会削弱性能与互操作性。第三,思维链监督虽能提高多跳任务的训练数据效率,但仍难以应对路径歧义问题。最后,我们构建了一个基于机制的分类体系,区分了神经网络实现泛化的三种方式:基于结构的(受限于覆盖范围)、基于属性的(利用代数不变性)和共享操作符的(通过函数复用)。这一概念视角为我们的研究结果提供了背景,并指明了实现系统性组合性所需的新架构思路。总体而言,覆盖原则为理解组合推理提供了一个统一的视角,并强调了实现真正系统性组合性所需的基础架构或训练方法的创新。
当前最先进的成员推断攻击(MIAs)通常需要训练大量参考模型,这使得将这些攻击扩展到大型预训练语言模型(LLMs)变得困难。因此,先前的研究要么依赖于避免训练参考模型的较弱攻击(例如,微调攻击),要么在小型模型和数据集上应用更强的攻击。然而,较弱的攻击已被证明是脆弱的——其成功率接近随机——而在简化设置中获得的强攻击的洞察力并不能直接应用于当今的LLMs。这些挑战引发了一个重要问题:先前工作中观察到的限制是由于攻击设计选择,还是MIAs在LLMs上本质上就无效?我们通过将LiRA——最强的MIAs之一——扩展到参数规模从10M到1B的GPT-2架构,并在C4数据集上训练超过200亿个token的参考模型,来解答这一问题。我们的研究结果在三个方面深化了对LLMs上MIAs的理解:(1)强MIAs可以在预训练的LLMs上取得成功;(2)然而,在实际场景中,其有效性仍然有限(例如,AUC<0.7);(3)MIA成功与相关隐私指标之间的关系并不像先前研究所示的那样直接。
基础模型正日益成为更优秀的自主编程者,这引发了它们可能自动化危险网络攻击操作的前景。当前的前沿模型审计探究了此类智能体在网络安全方面的风险,但大多未能考虑到现实中对手可获得的自由度。特别是在具备强大验证机制和财务激励的情况下,攻击性网络安全的智能体易于被潜在对手通过迭代改进。我们主张,评估应在网络安全的背景下考虑扩展的威胁模型,强调对手在固定计算预算内,于有状态和无状态环境中可能拥有的不同自由度。我们的研究表明,即便在相对较小的计算预算下(本研究中为8个H100 GPU小时),对手也能将智能体在InterCode CTF上的网络安全能力相对于基线提升超过40%——且无需任何外部协助。这些结果强调了以动态方式评估智能体网络安全风险的必要性,从而描绘出更具代表性的风险图景。
传统的人类反馈强化学习(RLHF)通常依赖于奖励模型,并常采用如Bradley-Terry模型等偏好结构,这些模型可能无法准确捕捉真实人类偏好的复杂性(例如,非传递性)。纳什人类反馈学习(NLHF)提供了一种更为直接的替代方案,它将问题框架化为寻找由这些偏好定义的博弈的纳什均衡。在本研究中,我们引入了纳什镜像近端(Nash-MP),这是一种在线NLHF算法,它利用镜像近端优化方案实现快速且稳定地收敛至纳什均衡。我们的理论分析表明,Nash-MP展现出对β-正则化纳什均衡的末次迭代线性收敛性。具体而言,我们证明了KL散度至最优策略的下降速率为(1+2β)^{-N/2}阶,其中N为偏好查询次数。我们进一步展示了对于利用性差距及对数概率的跨度半范数,Nash-MP均实现了末次迭代线性收敛,且所有这些收敛速率均与动作空间的大小无关。此外,我们提出并分析了一种Nash-MP的近似版本,其中近端步骤通过随机策略梯度进行估计,使得算法更接近实际应用。最后,我们详细阐述了一种用于微调大型语言模型的实用实施策略,并通过实验展示了其竞争性能及与现有方法的兼容性。
强化学习在提升大型语言模型的推理能力方面展现出潜力,但由于在推演阶段的样本效率较低,其扩展性受到限制。现有方法尝试通过基于问题难度进行调度来提高效率,然而这些方法对问题难度的估计不稳定且存在偏差,未能捕捉到强化学习训练中模型能力与问题难度之间的匹配关系,导致结果不尽如人意。为解决这些局限,本文提出了能力-难度对齐采样(Competence-Difficulty Alignment Sampling, CDAS),通过聚合问题的历史表现差异,实现对问题难度的准确且稳定估计。随后,模型能力被量化,利用定点系统自适应地选择与模型当前能力相匹配的难度问题。在一系列具有挑战性的数学基准测试中,实验结果表明CDAS在准确性和效率上均取得了显著提升。CDAS相较于基线方法达到了最高的平均准确率,并且与DAPO中的竞争策略动态采样相比,展现出显著的速度优势,后者比CDAS慢2.33倍。
随着推理模型在复杂自然语言任务中的日益成功,信息检索(IR)领域的研究者开始探索如何将类似的推理能力整合到基于大型语言模型(LLM)的段落重排序器中。这些方法通常利用LLM生成一个显式的、逐步的推理过程,最终得出相关性预测。然而,推理是否真的提升了重排序的准确性?本文深入探讨了这一问题,通过对比在相同训练条件下基于推理的点对点重排序器(ReasonRR)与标准的非推理点对点重排序器(StandardRR),发现StandardRR普遍优于ReasonRR。基于这一观察,我们进一步研究了推理对ReasonRR的重要性,通过禁用其推理过程(ReasonRR-NoReason),意外发现ReasonRR-NoReason比ReasonRR更为有效。探究这一结果的原因,我们的发现表明,基于推理的重排序器受限于LLM的推理过程,该过程倾向于产生极化的相关性评分,从而未能考虑段落的局部相关性,而这是点对点重排序器准确性的关键因素。
稀疏自编码器(SAEs)是机制可解释性(MI)领域中的一项重要工具,用于将神经网络激活分解为可解释的特征。然而,识别一组标准特征的目标因观察到不同训练过程中学习到的SAE特征存在不一致性而面临挑战,这削弱了MI研究的可靠性和效率。本立场论文主张,机制可解释性应优先考虑SAEs中的特征一致性——即在独立运行中可靠地收敛到等效特征集。我们建议采用成对字典平均相关系数(PW-MCC)作为实际操作一致性的实用指标,并证明通过适当的架构选择可以实现高水平的一致性(在LLM激活上TopK SAEs的PW-MCC达到0.80)。我们的贡献包括详细阐述了优先考虑一致性的益处;提供了理论基础并通过模型生物体进行合成验证,证实PW-MCC是真实特征恢复的可靠代理;并将这些发现扩展到现实世界的LLM数据中,其中高特征一致性与学习到的特征解释的语义相似性高度相关。我们呼吁整个社区转向系统性测量特征一致性,以促进MI领域稳健的累积进展。
大型语言模型(LLMs)在生物医学问答领域展现了卓越的能力,但其在实际临床咨询中的应用仍面临核心挑战。现有系统依赖单向信息传递模式,患者需一次性完整描述症状,导致当主诉模糊时,诊断建议缺乏针对性。基于监督学习的传统多轮对话方法受限于静态数据驱动范式,泛化能力不足,难以智能提取关键临床信息。为克服这些局限,我们提出了DoctorAgent-RL,一个基于强化学习(RL)的多智能体协作框架,将医疗咨询建模为不确定性下的动态决策过程。医生智能体在RL框架内通过与患者智能体的多轮交互,持续优化其提问策略,并根据咨询评估器提供的综合奖励动态调整信息收集路径。这一RL微调机制使LLMs能够自主开发符合临床推理逻辑的交互策略,而非浅层模仿现有对话数据中的模式。值得注意的是,我们构建了MTMedDialog,首个能够模拟患者互动的英文多轮医疗咨询数据集。实验表明,DoctorAgent-RL在多轮推理能力和最终诊断性能上均优于现有模型,展现了在辅助临床咨询中的实用价值。https://github.com/JarvisUSTC/DoctorAgent-RL
近期,大型语言模型(LLMs)的进展引入了潜在推理作为自回归推理的有力替代方案。通过利用先前步骤的隐藏状态进行内部计算,潜在推理能够从更具信息量的特征中获益,而非依赖于离散的思维链(CoT)路径采样。然而,潜在推理方法常与LLMs不兼容,因其连续范式与自回归生成的离散特性相冲突。此外,这些方法依赖CoT轨迹进行训练,未能充分利用LLMs内在的推理模式。本研究中,我们通过强化学习(RL)挖掘LLMs的固有能力来探索潜在推理。为此,我们提出了混合推理策略优化(HRPO),一种基于RL的混合潜在推理方法,它(1)通过可学习的门控机制将先前的隐藏状态整合到采样的令牌中,(2)在训练初期主要使用令牌嵌入,逐步引入更多隐藏特征。这一设计既保留了LLMs的生成能力,又激励了结合离散与连续表示的混合推理。此外,HRPO通过令牌采样为潜在推理引入随机性,从而无需CoT轨迹即可实现基于RL的优化。在多种基准测试中的广泛评估表明,HRPO在知识和推理密集型任务上均优于现有方法。更重要的是,经过HRPO训练的LLMs保持了可解释性,并展现出跨语言模式和更短完成长度等有趣行为,凸显了我们基于RL方法的潜力,为未来潜在推理研究提供了洞见。
在复杂未知环境中实现可泛化的主动建图,仍然是移动机器人面临的关键挑战。现有方法受限于训练数据不足和保守的探索策略,在面对布局多样、连通性复杂的场景时表现出有限的泛化能力。为了支持可扩展的训练和可靠的评估,我们推出了GLEAM-Bench,这是首个专为可泛化主动建图设计的大规模基准测试,包含来自合成和真实扫描数据集的1,152个多样化3D场景。在此基础上,我们提出了GLEAM,一种统一的、可泛化的主动建图探索策略。其卓越的泛化能力主要源于我们的语义表示、长期可导航目标以及随机化策略。在128个未见过的复杂场景上,GLEAM显著超越了现有最先进方法,实现了66.50%的覆盖率(提升9.49%),同时保持了高效的轨迹和更高的建图精度。项目页面:https://xiao-chen.tech/gleam/。
大型语言模型(LLMs)通常通过拒绝有害指令来遵循安全准则。最近出现的一种名为“消融”的攻击方法,通过隔离并抑制最关键的拒绝行为潜在方向,使模型能够生成不道德内容。我们提出了一种防御策略,通过改变模型生成拒绝的方式来进行应对。我们构建了一个扩展拒绝数据集,其中包含有害提示及其完整的拒绝理由响应。随后,我们对Llama-2-7B-Chat和Qwen2.5-Instruct(1.5B和3B参数)模型在该扩展拒绝数据集上进行了微调,并在有害提示集上评估了优化后的系统性能。实验结果显示,经过扩展拒绝微调的模型保持了较高的拒绝率,最多仅下降10%,而基线模型在遭受消融攻击后,拒绝率下降了70-80%。广泛的安全性和实用性评估表明,扩展拒绝微调有效抵御了消融攻击,同时保持了模型的整体性能。
强化学习(RL)在近期大语言模型(LLMs)数学能力的显著提升中扮演了核心角色,它通过二元验证信号实现了自我改进。相比之下,监督学习(SL)很少被考虑用于此类验证驱动的训练,主要原因是其过度依赖参考答案且无法反思错误。在本研究中,我们挑战了自我改进仅属于RL的普遍观念,提出了负感知微调(NFT)——一种监督方法,使LLMs能够反思其失败并在无外部指导的情况下自主改进。在在线训练中,NFT并未丢弃自生成的负面答案,而是构建了一个隐式负策略来建模这些负面答案。该隐式策略与我们在正样本数据上优化的同一正向LLM参数化,从而实现了对所有LLM生成结果的直接策略优化。我们在7B和32B模型上进行了数学推理任务的实验。结果一致表明,通过额外利用负面反馈,NFT显著超越了如拒绝采样微调等SL基线,匹配甚至超越了GRPO和DAPO等领先的RL算法。此外,我们证明了在严格在线策略训练下,NFT与GRPO实际上是等价的,尽管它们源自完全不同的理论基础。我们的实验与理论发现弥合了SL与RL方法在二元反馈学习系统中的鸿沟。
大型语言模型(LLMs)在诸如数学问题求解等多跳和推理密集型任务中易产生幻觉。尽管结果奖励模型仅验证最终答案,过程奖励模型(PRMs)则对每个中间步骤进行评分,以引导生成连贯的解决方案。我们提出了PathFinder-PRM,一种新颖的、层次化且具备错误感知能力的判别式PRM,它首先在每个步骤中分类数学错误和一致性错误,随后结合这些细粒度信号来估计步骤的正确性。为了训练PathFinder-PRM,我们构建了一个包含40万样本的数据集,通过丰富人工标注的PRM800K语料库和RLHFlow Mistral轨迹,并添加了三维步骤级标签。在PRMBench上,PathFinder-PRM以67.7的PRMScore刷新了记录,超越了之前的最佳成绩(65.5),同时使用的数据量减少了三倍。当应用于奖励引导的贪婪搜索时,我们的模型实现了prm@8 48.3,比最强基线提高了1.5分。这些结果表明,解耦的错误检测与奖励估计不仅增强了细粒度错误检测,还显著提升了端到端、奖励引导的数学推理能力,并实现了更高的数据效率。
近十年来,学术界一直在研究神经网络中的后门问题,主要集中在分类任务上,即攻击者如何操控模型预测。尽管这些改变预测的攻击明显具有恶意,但其对现实世界的直接影响尚不明确。本文提出了一类新颖且更为强大的后门攻击,基于近期在架构后门方面的进展。我们展示了如何专门设计这些后门以利用批处理推理这一常见的硬件利用技术,从而实现大规模用户数据操纵和窃取。通过针对批处理过程,这些架构后门促进了并发用户请求间的信息泄露,并允许攻击者完全控制同一批次内其他用户的模型响应。换言之,能够改变模型架构的攻击者可以设置并窃取同一批次内其他用户的模型输入和输出。我们证明此类攻击不仅可行,而且效果惊人,能够轻易注入到流行模型架构中,对用户隐私和系统完整性构成了真正的恶意威胁。至关重要的是,为应对这一新型漏洞,我们提出了一种确定性缓解策略,提供了针对这一新攻击向量的正式保证,与之前依赖大型语言模型发现后门的工作不同。我们的缓解策略采用了一种新颖的信息流控制机制,通过分析模型图并证明同一批次内不同用户输入间的无干扰性。利用我们的缓解策略,我们对托管在Hugging Face上的模型进行了大规模分析,发现超过200个模型由于使用动态量化而引入了(非预期的)批次条目间信息泄露。
后训练在提升大语言模型(LLMs)的推理能力方面已展现出其重要性。主要的后训练方法可分为监督微调(SFT)和强化微调(RFT)。SFT效率高,尤其适合小型语言模型,但可能导致过拟合,限制大型模型的推理能力。相比之下,RFT通常能带来更好的泛化效果,但高度依赖于基础模型的强度。为了克服SFT和RFT的局限性,我们提出了统一微调(UFT),这是一种新颖的后训练范式,将SFT和RFT统一为一个整合的过程。UFT使模型在融入有信息量的监督信号的同时,有效探索解决方案,弥合了现有方法中记忆与思考之间的鸿沟。值得注意的是,无论模型规模大小,UFT在总体上均优于SFT和RFT。此外,我们从理论上证明了UFT突破了RFT固有的指数级样本复杂度瓶颈,首次展示了统一训练能在长程推理任务上指数级加速收敛。
大型语言模型(LLMs)在通过搜索算法进行复杂推理方面表现出色,然而当前策略常因对语义等价步骤的冗余探索而消耗大量token。现有的语义相似度方法在特定领域(如数学推理)中难以准确识别此类等价性。为此,我们提出了EquivPruner,一种简单而有效的方法,用于在LLM推理搜索过程中识别并剪枝语义等价的动作。同时,我们引入了MathEquiv,这是首个为数学陈述等价性创建的数据集,它支持训练一个轻量级的等价性检测器。跨多种模型和任务的广泛实验表明,EquivPruner显著减少了token消耗,提升了搜索效率,并时常增强了推理准确性。例如,在GSM8K数据集上应用Qwen2.5-Math-7B-Instruct时,EquivPruner将token消耗降低了48.1%,同时提高了准确性。我们的代码已发布于https://github.com/Lolo1222/EquivPruner。
越来越多的自回归模型,如MAR、FlowAR、xAR和Harmon,采用扩散采样技术以提升图像生成质量。然而,这一策略导致推理效率低下,因为通常需要50到100步扩散过程来采样一个标记。本文探讨如何有效解决这一问题。我们的核心动机在于,随着自回归过程中生成更多标记,后续标记的分布受到更多约束,因而更易于采样。直观而言,若模型已生成狗的一部分,剩余标记必须完成狗的描绘,因此其分布更为受限。实证数据支持我们的观点:在生成后期,多层感知器能准确预测下一个标记,其方差较低,且从噪声到标记的去噪路径更接近直线。基于这一发现,我们提出了扩散步数退火(DiSA),这是一种无需训练的方法,它随着生成标记的增加逐步减少扩散步数,例如初始使用50步,后期逐步减少至5步。由于DiSA源自我们对自回归模型中扩散特性的特定发现,它与现有专为扩散设计的加速方法互为补充。DiSA仅需在现有模型上添加几行代码即可实现,尽管方法简单,却能在保持生成质量的同时,为MAR和Harmon带来5至10倍的推理加速,为FlowAR和xAR带来1.4至2.5倍的提升。
不确定性量化对于评估现代AI系统的可靠性和可信度至关重要。在现有方法中,语言化不确定性——即模型通过自然语言表达其置信度——已成为大型语言模型(LLMs)中一种轻量级且可解释的解决方案。然而,其在视觉语言模型(VLMs)中的有效性尚未得到充分研究。在本研究中,我们对VLMs中的语言化置信度进行了全面评估,涵盖三种模型类别、四个任务领域和三种评估场景。我们的结果表明,当前的VLMs在不同任务和设置下常表现出显著的校准偏差。值得注意的是,视觉推理模型(即基于图像的思考)始终展现出更好的校准效果,这表明特定模态的推理对于可靠的不确定性估计至关重要。为进一步应对校准挑战,我们引入了视觉置信感知提示法,这是一种两阶段提示策略,可提升多模态环境下的置信度对齐。总体而言,我们的研究揭示了VLMs跨模态的固有校准偏差。更广泛地,我们的发现强调了模态对齐和模型忠实性在推进可靠多模态系统中的根本重要性。
近期的大型语言模型,如Gemini-1.5、DeepSeek-V3和Llama-4,越来越多地采用专家混合(Mixture-of-Experts, MoE)架构,这种架构通过仅为每个令牌激活模型的一部分,实现了效率与性能的出色平衡。然而,学术界仍缺乏一个完全开放、端到端的MoE平台,用于研究模型扩展、路由机制及专家行为。为此,我们发布了FLAME-MoE,这是一个完全开源的研究套件,包含七个仅解码器模型,活跃参数规模从3800万到17亿不等,其架构——包含64个专家、采用前8门控及2个共享专家——紧密贴合现代生产级大语言模型的设计。所有训练数据管道、脚本、日志及检查点均公开,以确保实验的可重复性。在六项评估任务中,FLAME-MoE相较于同等计算量(FLOPs)下的密集基线模型,平均准确率提升了高达3.4个百分点。借助训练全程的透明度,我们进行了初步分析,结果表明:(i) 专家逐渐专注于不同的令牌子集,(ii) 共同激活矩阵保持稀疏,反映了专家的多样化使用,(iii) 路由行为在训练早期即趋于稳定。所有代码、训练日志及模型检查点均可通过https://github.com/cmu-flame/FLAME-MoE获取。
近期如GPT-4o、Gemini 2.0 Flash和Gemini 2.5 Pro等多模态图像生成器在遵循复杂指令、图像编辑及概念一致性保持方面表现卓越。然而,它们仍由相互独立的工具包进行评估:缺乏多模态条件的文本到图像(T2I)基准测试,以及忽视组合语义与常识的定制化图像生成基准测试。为此,我们提出了MMIG-Bench,一个全面的多模态图像生成基准测试,通过将4,850个丰富注释的文本提示与1,750张多视角参考图像配对,覆盖380个主题,包括人类、动物、物体及艺术风格,统一了这些任务。MMIG-Bench配备了一个三级评估框架:(1)针对视觉伪影和对象身份保持的低级指标;(2)新颖的方面匹配分数(AMS):一种基于视觉问答的中级指标,提供细粒度的提示-图像对齐,并显示出与人类判断的强相关性;(3)针对美学和人类偏好的高级指标。利用MMIG-Bench,我们对包括Gemini 2.5 Pro、FLUX、DreamBooth和IP-Adapter在内的17个顶尖模型进行了基准测试,并通过32,000次人类评分验证了我们的指标,深入剖析了架构与数据设计。我们将公开数据集和评估代码,以促进严谨、统一的评估,加速多模态图像生成领域的未来创新。
当前的大型语言模型(LLMs)已在社交智能任务中展现出新兴能力,包括隐含意义解析(Sravanthi等,2024)和心理理论推理(Shapira等,2024),这两者均需深厚的语用理解。然而,LLMs在训练过程中如何获得这一能力仍不甚明了。本研究引入了ALTPRAG,一个基于语用学“替代选择”概念构建的数据集,旨在评估不同训练阶段的LLMs能否准确推断出说话者的微妙意图。每个实例均配有两段语境适宜但语用差异的续写,从而实现对语用解读与对比推理的精细评估。我们系统性地评估了22个LLMs在关键训练阶段的表现:预训练、监督微调(SFT)及偏好优化,以探究语用能力的发展轨迹。结果显示,即便是基础模型也对语用线索表现出显著敏感性,且随着模型与数据规模的扩大,这种敏感性持续提升。此外,SFT和RLHF进一步促进了性能提升,尤其在认知语用推理方面。这些发现强调了语用能力作为LLM训练中涌现且可组合的特性,并为模型与人类交际规范的对齐提供了新的洞见。
大型多模态基础模型,尤其在语言与视觉领域,已显著推动了包括机器人技术、自动驾驶、信息检索及场景理解在内的多项任务进展。然而,众多此类模型将物体视为不可分割的整体,忽视了构成物体的各个部件。理解这些部件及其相关的功能属性,对于深入掌握物体的功能性至关重要,这是执行广泛任务的基础。在本研究中,我们引入了一个新颖的现实世界基准——InstructPart,它包含了手工标注的部件分割注释及面向任务的指令,旨在评估现有模型在日常情境下理解和执行部件级任务的能力。通过实验,我们证明了即使对于最先进的视觉-语言模型(VLMs),面向任务的部件分割仍是一个具有挑战性的问题。除了我们的基准外,我们还提出了一个简单基线模型,通过使用我们的数据集进行微调,实现了性能的翻倍提升。借助我们的数据集与基准,我们期望能促进面向任务的部件分割研究,并提升VLMs在机器人技术、虚拟现实、信息检索及其他相关领域的应用潜力。项目网站:https://zifuwan.github.io/InstructPart/。
近期,如思维链提示(Chain-of-Thought prompting)等进展显著提升了大型语言模型(LLMs)在零样本医疗推理中的表现。然而,基于提示的方法往往显得浅显且不稳定,而经过微调的医疗LLMs则在分布变化下泛化能力差,对未见过的临床场景适应有限。为应对这些局限,我们提出了TAGS,一个测试时框架,它结合了广泛能力的通才与领域专才,无需模型微调或参数更新,即可提供互补视角。为支持这一通才-专才推理过程,我们引入了两个辅助模块:一个分层检索机制,通过基于语义和推理层面相似性选择示例,提供多尺度范例;以及一个可靠性评分器,评估推理一致性以指导最终答案的聚合。TAGS在九项MedQA基准测试中均表现出色,将GPT-4o的准确率提升了13.8%,DeepSeek-R1提升了16.8%,并将一个基础7B模型的准确率从14.1%提升至23.9%。这些成果超越了多个经过微调的医疗LLMs,且无需任何参数更新。代码将在https://github.com/JianghaoWu/TAGS 提供。
随着大型音频语言模型(LALMs)的进步,这些模型通过增强大型语言模型(LLMs)的听觉能力,预计将在多种听觉任务中展现出通用性。尽管已有众多基准测试用于评估LALMs的性能,但它们仍显分散且缺乏系统化的分类体系。为填补这一空白,我们进行了全面调研,并提出了一个针对LALM评估的系统化分类框架,依据评估目标将其划分为四个维度:(1) 通用听觉感知与处理,(2) 知识与推理,(3) 对话导向能力,以及(4) 公平性、安全性与可信度。我们在每一类别下提供了详尽的综述,并指出了该领域面临的挑战,为未来研究方向提供了洞见。据我们所知,这是首次专门聚焦于LALMs评估的调研,为学术界提供了明确的指导。我们将发布所调研论文的集合,并积极维护以支持该领域的持续发展。
尽管通用机器人技术近期取得了进展,但机器人策略在现实世界中的基本能力仍远不及人类。人类持续与物理世界互动,然而这一丰富的数据资源在机器人学习领域仍大多未被开发。我们提出了EgoZero,一个极简系统,它能够通过Project Aria智能眼镜捕捉的人类示范数据,在无需任何机器人数据的情况下,学习到稳健的操控策略。EgoZero实现了以下功能:(1) 从野外、以自我为中心的人类示范中提取完整且机器人可执行的动作;(2) 将人类视觉观察压缩为与形态无关的状态表示;(3) 进行闭环策略学习,该策略在形态、空间和语义上均具有泛化能力。我们将EgoZero策略部署于配备夹爪的Franka Panda机器人上,并在7项操控任务中展示了零样本迁移,成功率高达70%,每项任务仅需20分钟的数据收集。我们的研究结果表明,野外人类数据可作为现实世界机器人学习的可扩展基础,为机器人迈向丰富、多样且自然的训练数据未来铺平道路。代码与视频详见https://egozero-robot.github.io。
元数据提取对于数据集的编目与保存至关重要,它促进了有效的研究发现与可重复性,尤其是在当前科学研究呈指数级增长的背景下。尽管Masader(Alyafeai等人,2021)为从阿拉伯语自然语言处理数据集的学术文章中提取广泛的元数据属性奠定了基础,但其主要依赖于人工标注。本文中,我们提出了MOLE框架,该框架利用大型语言模型(LLMs)自动从涵盖非阿拉伯语数据集的科学论文中提取元数据属性。我们的模式驱动方法能够处理多种输入格式的完整文档,并整合了稳健的验证机制以确保输出的一致性。此外,我们引入了一个新的基准来评估此任务的研究进展。通过对上下文长度、少样本学习及网络浏览集成进行系统分析,我们展示了现代LLMs在自动化此任务上展现出的潜力,同时强调了未来进一步改进以确保性能一致性与可靠性的必要性。我们向研究社区发布了代码:https://github.com/IVUL-KAUST/MOLE 和数据集:https://huggingface.co/datasets/IVUL-KAUST/MOLE。
本研究探讨了大规模语言模型(LLMs)中可解释类别特征的出现规律,分析了这些特征在训练检查点(时间维度)、Transformer层(空间维度)以及不同模型规模(尺度维度)上的表现。通过使用稀疏自编码器进行机制解释性分析,我们识别了特定语义概念在神经激活中的出现时机与位置。研究结果表明,在多个领域中,特征的出现存在明确的时间与规模阈值。特别值得注意的是,空间分析揭示了意外的语义再激活现象,即早期层的特征在后续层中重新出现,这一发现对Transformer模型中表征动态的标准假设提出了挑战。
引导方法已成为无需修改参数即可有效且精准地指导大型语言模型(LLMs)行为的工具。然而,多模态大型语言模型(MLLMs)目前尚未享受到同等的技术待遇,部分原因在于其新颖性及架构的多样性。受此差距启发,我们探索了是否可以通过稀疏自编码器(SAEs)、均值漂移和线性探测,利用MLLMs中纯文本LLM骨干派生的向量来引导MLLMs。研究发现,基于文本的引导能持续提升多种MLLM架构及视觉任务中的多模态准确性。特别是,均值漂移在CV-Bench上的空间关系准确率提升了高达+7.3%,计数准确率提升了高达+3.3%,超越了提示方法,并在分布外数据集上展现出强大的泛化能力。这些成果表明,文本引导向量作为一种强大而高效的机制,能够以最小的额外数据收集和计算开销,增强MLLMs的接地能力。
离线目标导向强化学习(GCRL)提供了一种实用的学习范式,其中目标达成策略是从大量无标签(无奖励)数据集中训练而来,无需额外的环境交互。然而,即便采用了如HIQL等层次化策略结构的最新进展,离线GCRL在处理长时程任务时仍面临挑战。通过深入分析这一难题的根源,我们得出以下洞见:首先,性能瓶颈主要源于高层策略无法生成合适的子目标。其次,在长时程场景下学习高层策略时,优势信号的符号经常出现错误。因此,我们认为改进价值函数以产生清晰的优势信号,对于高层策略的学习至关重要。本文提出了一种简单而有效的解决方案:选项感知的时序抽象价值学习(OTA),它将时序抽象融入时序差分学习过程中。通过使价值更新具备选项感知能力,所提出的学习方案缩短了有效时程长度,即便在长时程场景下也能实现更优的优势估计。实验表明,利用OTA价值函数提取的高层策略在OGBench这一新近提出的离线GCRL基准测试中,包括迷宫导航和视觉机器人操作环境,均展现出强劲性能。