每日精选AI研究论文及翻译
基于大型语言模型(LLM)的列表排序在众多段落排序任务中展现了卓越性能。随着大型推理模型的发展,多项研究证实,测试时逐步推理有助于提升列表排序效果。然而,由于缺乏推理密集型的训练数据,现有重排序器在许多复杂排序场景中表现欠佳,推理密集型重排序器的排序能力仍待大幅提升。本文首先提出了一种自动化的推理密集型训练数据合成框架,该框架从多领域采集训练查询与段落,并运用DeepSeek-R1生成高质量的训练标签。为确保数据质量,设计了自一致性数据过滤机制。为赋予列表重排序器强大的推理能力,我们进一步提出了一种两阶段的后训练方法,包括用于推理模式学习的冷启动监督微调(SFT)阶段,以及用于进一步强化排序能力的强化学习(RL)阶段。在RL阶段,基于列表排序的本质,我们设计了一种多视角排序奖励,相比基于排序指标的奖励更为有效。大量实验表明,我们训练的推理密集型重排序器ReasonRank显著超越了现有基线,且相比点排序器Rank1实现了更低的延迟。通过进一步实验,ReasonRank在BRIGHT排行榜上取得了40.6的当前最优(SOTA)成绩\footnote{https://brightbenchmark.github.io/.}。我们的代码已发布于https://github.com/8421BCD/ReasonRank。
从专业研究到日常规划,许多任务都受制于大规模信息检索的瓶颈,这种工作更多是重复性而非认知复杂性的。随着大型语言模型(LLMs)的快速发展,由LLMs驱动的自动化搜索代理为解放人类于此类繁琐工作提供了颇具前景的解决方案。然而,由于缺乏合适的基准测试,这些代理在可靠且完整地执行“广域上下文”信息收集方面的能力仍未被充分评估。为填补这一空白,我们推出了WideSearch,一个专为评估代理在大规模收集任务中的可靠性而设计的新基准。该基准包含200道手工筛选的问题(100道英文,100道中文),覆盖超过15个不同领域,均基于真实用户查询。每项任务要求代理收集大规模原子信息,这些信息可逐一客观验证,并整理成结构化的输出。通过严格的五阶段质量控制流程,确保了数据集的难度、完整性和可验证性。我们对超过10种最先进的代理搜索系统进行了基准测试,包括单代理、多代理框架以及端到端的商业系统。大多数系统的总体成功率接近0%,表现最佳者仅达到5%。然而,若给予充足时间,多位人类测试者的交叉验证可实现接近100%的成功率。这些结果表明,当前搜索代理在大规模信息检索方面存在显著不足,凸显了代理搜索领域未来研究与开发的紧迫需求。我们的数据集、评估流程及基准测试结果已公开发布于https://widesearch-seed.github.io/。
近期大型语言模型的进展引发了人们对能够解决复杂现实任务的人工智能代理日益增长的兴趣。然而,现有的大多数代理系统依赖于手动配置,这些配置在部署后保持静态,限制了其适应动态和不断变化环境的能力。为此,最新研究探索了旨在基于交互数据和环境反馈自动增强代理系统的进化技术。这一新兴方向为自进化AI代理奠定了基础,将基础模型的静态能力与终身代理系统所需的持续适应性相连接。在本综述中,我们对现有的自进化代理系统技术进行了全面回顾。具体而言,我们首先引入了一个统一的概念框架,抽象出自进化代理系统设计背后的反馈循环。该框架突出了四个关键组成部分:系统输入、代理系统、环境和优化器,为理解和比较不同策略提供了基础。基于此框架,我们系统地回顾了针对代理系统不同组件的多种自进化技术。我们还探讨了为生物医学、编程和金融等专业领域开发的特定领域进化策略,其中优化目标与领域约束紧密相关。此外,我们专门讨论了自进化代理系统的评估、安全性和伦理考量,这对于确保其有效性和可靠性至关重要。本综述旨在为研究人员和实践者提供对自进化AI代理的系统性理解,为开发更具适应性、自主性和终身性的代理系统奠定基础。
视觉特效(VFX)是现代电影制作中不可或缺的视觉增强手段。尽管视频生成模型为VFX制作提供了成本效益高的解决方案,但现有方法受限于针对单一特效的LoRA训练,这限制了生成仅限于单一特效的能力。这一根本性限制阻碍了需要空间可控复合特效的应用,即在指定位置同时生成多种特效。然而,将多样特效整合到一个统一框架中面临重大挑战:特效变化带来的干扰以及多VFX联合训练中的空间不可控性。为解决这些挑战,我们提出了Omni-Effects,首个能够生成提示引导特效及空间可控复合特效的统一框架。该框架的核心包含两项关键创新:(1)基于LoRA的专家混合模型(LoRA-MoE),采用一组专家LoRA,在统一模型中整合多样特效,有效减轻跨任务干扰。(2)空间感知提示(SAP)将空间掩码信息融入文本标记,实现精确的空间控制。此外,我们在SAP中引入了独立信息流(IIF)模块,隔离各特效对应的控制信号,防止不希望的混合。为推进此项研究,我们通过结合图像编辑与首尾帧到视频(FLF2V)合成的新颖数据收集流程,构建了全面的VFX数据集Omni-VFX,并引入专门的VFX评估框架以验证模型性能。大量实验证明,Omni-Effects实现了精确的空间控制与多样特效生成,使用户能够指定所需特效的类别及位置。
深度研究代理(Deep-Research agents)通过将大型语言模型(LLMs)与搜索工具相结合,在处理需要迭代搜索规划及对搜索结果进行推理的复杂查询方面,已展现出提升效率的显著成效。然而,当前基于BrowseComp等基准的评估,依赖于黑箱式的实时网络搜索API,存在两大显著局限:(1)公平性:动态且不透明的网络API阻碍了深度研究方法的公平比较与可复现性;(2)透明度:缺乏对文档库的控制,难以单独评估检索器的贡献。换言之,现有评估虽能在特定时间点比较完整的深度研究系统,却未能促进精心控制的实验,以深入理解底层深度研究LLMs的能力。为应对这些挑战,我们推出了BrowseComp-Plus,这一源自BrowseComp的基准,采用了一个固定且精心筛选的文档库。BrowseComp-Plus中的每个查询均包含人工验证的支持文档及挖掘出的挑战性负样本,从而支持可控实验。该基准在区分深度研究系统性能方面表现出色。例如,开源模型Search-R1搭配BM25检索器时,准确率为3.86%,而GPT-5则达到55.9%。将GPT-5与Qwen3-Embedding-8B检索器结合,进一步将其准确率提升至70.1%,同时减少了搜索调用次数。此基准为深度研究代理与检索方法的全面评估及解耦分析提供了平台,促进了在检索效率、引用准确性及深度研究系统中的上下文工程等方面的深入洞察。
推理是目标导向行动的核心,然而大多数机器人基础模型直接将感知和指令映射到控制,这限制了适应性、泛化能力和语义基础。我们引入了动作推理模型(ARMs),这是一类通过结构化三阶段流程整合感知、规划与控制的视觉-语言-动作模型。我们的模型MolmoAct将观察和指令编码为深度感知的感知标记,生成可编辑的轨迹痕迹作为中层空间规划,并预测精确的低层动作,从而实现可解释且可引导的行为。MolmoAct-7B-D在仿真和现实环境中均表现出色:在SimplerEnv视觉匹配任务中达到70.5%的零样本准确率,超越闭源的Pi-0和GR00T N1;在LIBERO上平均成功率为86.6%,包括在长时任务上较ThinkAct额外提升6.3%;在现实世界微调中,单臂任务进展较Pi-0-FAST提升10%,双臂任务提升22.7%。在分布外泛化上,它比基线模型额外提升23.3%,并在开放式指令跟随和轨迹引导上获得最高的人类偏好评分。此外,我们首次发布了MolmoAct数据集——一个包含10,000多条高质量机器人轨迹的中期训练数据集,涵盖多种场景和任务。使用该数据集训练使基础模型的整体性能平均提升5.5%。我们公开了所有模型权重、训练代码、收集的数据集以及动作推理数据集,确立了MolmoAct作为最先进的机器人基础模型,并通过结构化推理将感知转化为目标导向行动的开放蓝图。博客文章:https://allenai.org/blog/molmoact
我们推出Klear-Reasoner,这是一款具备长程推理能力的模型,在问题解决过程中展现出审慎的思考,在多个基准测试中取得了卓越的成绩。尽管当前社区已有众多优秀的推理模型相关研究,但由于训练细节披露不完整,复现高性能推理模型仍面临诸多挑战。本报告深入剖析了推理模型,涵盖了从数据准备、长链思维监督微调(长CoT SFT)到强化学习(RL)的完整训练后工作流程,并对每个实验组件进行了详细的消融研究。对于SFT数据,我们的实验表明,少量高质量数据源比大量多样化数据源更为有效,且困难样本无需精度筛选即可取得更佳效果。此外,我们探讨了当前RL中裁剪机制的两个关键问题:裁剪抑制了关键的探索信号,并忽视了次优轨迹。针对这些挑战,我们提出了梯度保留裁剪策略优化(GPPO),它温和地反向传播来自裁剪标记的梯度。GPPO不仅增强了模型的探索能力,还提高了其从负样本中学习的效率。Klear-Reasoner在数学和编程领域展现出非凡的推理能力,在AIME 2024上得分90.5%,在AIME 2025上得分83.2%,在LiveCodeBench V5上得分66.0%,在LiveCodeBench V6上得分58.1%。
近期提出的大型概念模型(LCM)通过预测句子级嵌入序列,并采用均方误差或扩散目标进行训练来生成文本。我们推出了SONAR-LLM,这是一款仅含解码器的Transformer模型,它在相同的连续SONAR嵌入空间中“思考”,但通过冻结的SONAR解码器传播的令牌级交叉熵进行监督。这种混合目标保留了LCM的语义抽象能力,同时消除了其扩散采样器,并恢复了基于似然的训练信号。在参数量从3900万到13亿不等的模型规模下,SONAR-LLM均展现出具有竞争力的生成质量。我们报告了扩展趋势、消融实验、基准测试结果,并公开了完整的训练代码及所有预训练检查点,以促进可重复性和未来研究。
基于大语言模型(LLMs)的智能体在推理与工具使用方面取得了显著进展,使其能够解决复杂任务。然而,这些智能体在与用户主动协作方面的能力,尤其是在目标模糊、动态变化或间接表达的情况下,仍未被充分探索。为填补这一空白,我们引入了UserBench,一个以用户为中心的基准测试,旨在评估智能体在多轮、偏好驱动的交互中的表现。UserBench模拟了初始目标不明确的用户,逐步揭示其偏好,要求智能体主动澄清意图并利用工具做出有依据的决策。我们对领先的开源与闭源LLMs的评估显示,任务完成度与用户契合度之间存在显著脱节。例如,模型平均仅能在20%的情况下提供完全符合所有用户意图的答案,即使是最先进的模型,通过主动交互也仅能发现不到30%的用户偏好。这些结果凸显了构建不仅是高效任务执行者,更是真正协作伙伴的智能体所面临的挑战。UserBench提供了一个互动环境,用以衡量并推进这一关键能力的发展。
针对大语言模型(LLM)推理的强化学习已迅速成为一个重要的研究领域,相关研究在算法创新与实际应用方面均呈现出显著增长。尽管如此,该领域仍面临若干关键挑战,包括缺乏运用强化学习技术的标准化指南,以及对其内在机制的理解尚不系统。此外,实验设置的不一致、训练数据的差异及模型初始化的不同,导致了结论间的矛盾,模糊了这些技术的核心特征,使实践者在选择合适技术时感到困惑。本文通过在一个统一的开源框架内进行严格的复现与独立评估,系统回顾了广泛采用的强化学习技术。我们通过细粒度实验,包括不同难度数据集、模型规模及架构,深入分析了每种技术的内在机制、适用场景与核心原理。基于这些洞见,我们为特定场景下的技术选择提供了清晰的指导,并为LLM领域强化学习的实践者绘制了一份可靠的路线图。最后,我们发现,仅需两种技术的简约组合,便能利用标准PPO损失解锁无评论家策略的学习能力。实验结果表明,这一简单组合持续提升了性能,超越了GRPO与DAPO等策略。
近期,强化学习(RL)与视觉智能的交叉领域取得了显著进展,使得智能体不仅能感知复杂的视觉场景,还能在其中进行推理、生成和行动。本综述对该领域进行了批判性且最新的综合梳理。我们首先形式化了视觉RL问题,并追溯了从RLHF到可验证奖励范式,以及从近端策略优化到群体相对策略优化的策略优化策略演变历程。随后,我们将200多项代表性工作归纳为四大主题支柱:多模态大语言模型、视觉生成、统一模型框架及视觉-语言-行动模型。针对每一支柱,我们深入探讨了算法设计、奖励工程、基准测试进展,并提炼出诸如课程驱动训练、偏好对齐扩散、统一奖励建模等趋势。最后,我们回顾了涵盖集合级保真度、样本级偏好及状态级稳定性的评估协议,并指出了包括样本效率、泛化能力及安全部署在内的开放挑战。我们的目标是为研究人员和实践者提供一幅视觉RL快速扩展版图的清晰导航图,并指明未来探索的潜力方向。相关资源可访问:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。
大型语言模型(LLMs)通过检索增强生成(RAG)技术,在遵循检索器-阅读器范式的基础上,展现了更优的生成性能,该技术通过外部检索的知识补充模型输入。然而,先前的研究往往整体评估RAG,将检索器与阅读器联合考量,这使得难以单独衡量检索的真实贡献,尤其是考虑到作为阅读器的LLMs对提示的敏感性。我们引入了频谱投影评分(SPS),这是一种轻量级、无需监督的度量方法,它通过比较由检索摘要生成的标记所形成的区域与阅读器中子空间的主方向,来评估检索摘要与其隐藏表示之间的语义对齐程度,并以此衡量相关性。基于SPS,我们提出了xCompress,一个推理时控制器框架,它能动态采样、排序并压缩检索摘要候选。在五个问答基准测试及四种开源LLMs上的广泛实验表明,SPS不仅提升了一系列任务的性能,还为检索与生成之间的互动提供了原则性的视角。
专家混合(Mixture of Experts, MoE)架构是现代顶尖大规模语言模型(LLMs)的基石。MoE模型通过稀疏参数激活实现了良好的可扩展性。然而,传统MoE架构采用统一大小的同质专家,无论输入复杂度如何都激活固定数量的参数,从而限制了计算效率。为克服这一局限,我们引入了Grove MoE,一种受异构big.LITTLE CPU架构启发、包含不同大小专家的新颖架构。该架构引入了具有动态激活机制的伴随专家,在保持可控计算开销的同时扩展了模型容量。基于此架构,我们提出了GroveMoE-Base和GroveMoE-Inst,这是通过在中途训练和训练后对Qwen3-30B-A3B-Base模型应用升级策略开发的33B参数LLMs。GroveMoE模型根据令牌复杂度动态激活3.14至3.28B参数,并实现了与相似甚至更大规模的开源顶尖模型相媲美的性能。
大型语言模型在抽象推理方面表现出色,但其在具身代理推理方面的能力仍待深入探索。我们提出了OmniEAR,一个全面评估语言模型在具身任务中对物理交互、工具使用及多智能体协调进行推理的框架。与现有提供预定义工具集或明确协作指令的基准不同,OmniEAR要求智能体根据任务需求动态获取能力并自主确定协调策略。通过基于文本的环境表示,我们在涵盖家庭和工业领域的1500个场景中模拟了连续的物理属性和复杂的空间关系。系统性评估显示,当模型必须从约束条件进行推理时,性能显著下降:在明确指令下成功率可达85%-96%,而在工具推理和隐性协作中分别降至56%-85%和63%-85%,复合任务的失败率超过50%。令人惊讶的是,完整的环境信息反而降低了协调性能,表明模型无法筛选出与任务相关的约束。微调显著提升了单智能体任务的表现(从0.6%提升至76.3%),但对多智能体任务的改善微乎其微(仅从1.5%提升至5.5%),揭示了模型架构的根本局限性。这些发现表明,具身推理提出了与当前模型能力截然不同的挑战,确立了OmniEAR作为评估和推进具身AI系统的严格基准。我们的代码和数据包含在补充材料中,并将在论文被接受后开源。
自奖励语言模型提出了一种架构,其中大型语言模型(LLMs)不仅生成响应,还通过LLM作为评判者的提示机制评估自身输出,借助迭代的直接偏好优化(DPO)动态提升其生成能力。然而,我们的分析揭示了现有自奖励范式的一个关键局限:被选与拒绝响应的同步改进逐渐缩小了对比样本之间的表征差异,削弱了有效的偏好学习。我们提出了时序自奖励语言模型,该模型策略性地协调过去、现在及未来的模型生成,以维持学习信号。我们的双阶段框架引入了:(1) 锚定拒绝——利用过去初始模型的输出固定拒绝响应;(2) 未来引导选择——利用下一代模型的预测动态筛选被选样本。在Llama、Qwen、Mistral三大模型家族及不同模型规模(Llama3B/8B/70B)上的广泛实验表明,采用我们的方法训练,相比使用相同计算资源的自奖励方法,取得了显著提升。例如,Llama3.1-8B在我们的方法下,在AlpacaEval 2.0上达到了29.44的胜率,较自奖励基线(19.69)高出9.75。值得注意的是,尽管未专门收集此类训练数据,我们的方法在数学推理(GSM8K)、知识问答(ARC, TruthfulQA)及代码生成(HumanEval)任务上也展现出了卓越的分布外泛化能力。
大型推理模型通过测试阶段的扩展实现了强劲性能,但带来了显著的计算开销,尤其是在处理简短输入提示时产生的过多令牌生成。尽管稀疏注意力机制能够降低延迟和内存使用,现有方法因长序列推理过程中累积的错误而遭受显著的准确率下降。这些方法通常需要高令牌保留率或昂贵的重新训练。我们提出了LessIsMore,一种无需训练的稀疏注意力机制,专为推理任务设计,它利用全局注意力模式而非依赖传统的头特定局部优化。LessIsMore通过整合来自局部注意力头的令牌选择与最新上下文信息,实现了对未来解码层的统一跨头令牌排序。这种统一选择通过避免为每个头维护独立的令牌子集,提升了泛化能力和效率。在多种推理任务和基准测试中的评估显示,LessIsMore不仅保持了——在某些情况下还提升了——准确率,同时相比全注意力机制实现了1.1倍的解码速度提升。此外,LessIsMore在无准确率损失的情况下关注了2倍少的令牌,相比现有稀疏注意力方法实现了1.13倍的端到端速度提升。
在诸如Open X-Embodiment (OXE)等大规模数据集上训练的通才机器人策略,在广泛任务中展现出强劲性能。然而,这些策略往往难以超越其训练数据分布进行泛化。本文深入探讨了这种有限泛化能力背后的根本原因,指出捷径学习——即依赖任务无关特征——是阻碍泛化的关键因素。通过全面的理论与实证分析,我们揭示了导致捷径学习的两大主要因素:(1) 各子数据集内部多样性不足,以及(2) 子数据集间显著的分布差异,导致数据集碎片化。这些问题源于OXE等大规模数据集固有的结构,这类数据集通常由在多样环境与实体中独立收集的多个子数据集构成。我们的研究为减少捷径学习、提升通才机器人策略泛化能力的数据集收集策略提供了关键洞见。此外,在获取新的大规模数据不切实际的情况下,我们证明,精心挑选的机器人数据增强策略能有效减少现有离线数据集中的捷径学习,从而提升通才机器人策略(如pi_0)在仿真与真实环境中的泛化能力。更多信息请访问https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/。
尽管近期基于流的图像编辑模型展现了跨多种任务的通用能力,但在处理具有挑战性的场景时,尤其是涉及大规模形状变换的情况,它们往往表现欠佳。在执行此类结构性编辑时,这些方法要么未能实现预期的形状改变,要么无意中改变了非目标区域,导致背景质量下降。我们提出了“Follow-Your-Shape”,一个无需训练且无需掩码的框架,支持精确且可控的对象形状编辑,同时严格保护非目标内容。受反转与编辑轨迹间差异的启发,我们通过比较反转路径与去噪路径中逐令牌的速度差异,计算出一个轨迹差异图(TDM)。TDM能够精确定位可编辑区域,并指导一个预定的键值注入机制,确保编辑过程的稳定性和忠实性。为了便于严格评估,我们引入了ReShapeBench,这是一个包含120张新图像及丰富提示对的新基准,专门为形状感知编辑而设计。实验证明,我们的方法在需要大规模形状替换的任务中,实现了卓越的编辑能力和视觉保真度。
混合专家(Mixture-of-Experts, MoE)架构已成为扩展大型语言模型(LLMs)的主流范式。尽管MoE在提供卓越性能和计算效率方面表现出色,但如DeepSeek-V3-0324和Kimi-K2-Instruct等基于MoE的大型语言模型在部署时面临严峻挑战,主要源于其巨大的内存需求。虽然近期研究探索了MoE压缩以应对此问题,但现有方法即便在适度压缩率下也常伴随显著的精度下降(例如相对下降7-14%)。本文提出了一种新颖的混合基础专家(Mixture-of-Basis-Experts, MoBE)方法,在实现模型压缩的同时,仅引入最小精度损失。具体而言,MoBE将每个专家中的上/门控矩阵通过秩分解为W = AB,其中矩阵A为每个专家独有。相对较大的矩阵B则进一步参数化为同一MoE层内所有专家共享的基础矩阵{Bi}的线性组合。通过最小化相对于原始权重矩阵的重构误差来学习这一分解。实验表明,与先前工作相比,MoBE显著降低了精度损失。例如,MoBE能够将Qwen3-235B-A22B-2507、DeepSeek-V3-0324(671B)和Kimi-K2-Instruct(1T)的参数数量减少24%-30%,而精度仅下降1%-2%(相对下降约2%)。
分类是人工智能应用中最普遍的任务之一,常作为数据筛选、排序和分类的第一步。由于现代AI系统需要处理大量输入数据,且早期处理阶段的错误会向下游传播,因此实现高效率和准确性至关重要。此外,分类需求会随用户需求动态变化,这就要求模型具备强大的零样本学习能力。尽管生成式大语言模型(LLMs)因其多功能性已成为零样本分类的主流选择,但它们存在指令遵循不一致和计算效率低下的问题。交叉编码器(Cross-encoders)作为RAG管道中的重排序器,面临不同的瓶颈:它们必须顺序处理文本-标签对,这在处理大规模标签集时显著降低了效率。基于嵌入的方法虽效率较高,但在涉及逻辑和语义约束的复杂场景中表现欠佳。我们提出了GLiClass,一种将GLiNER架构适配于序列分类任务的新方法。该方法在保持与基于嵌入方法相当的准确性和效率的同时,还具备零样本和小样本学习所需的灵活性。此外,我们还将近端策略优化(PPO)应用于多标签文本分类,使得在数据稀疏条件下或基于人类反馈训练分类器成为可能。
全球大多数组织数据以文档形式存储,视觉检索在从这些文档中挖掘集体智慧方面发挥着关键作用。然而,现有基准测试仅关注英文文档检索,或仅在单页图像上进行多语言问答。为填补这一空白,我们推出了VisR-Bench,这是一个专为长文档中问题驱动的多模态检索而设计的多语言基准测试。我们的基准包含超过35,000个高质量问答对,覆盖1,200份文档,支持对多模态检索进行细粒度评估。VisR-Bench涵盖十六种语言,包含三种问题类型(图表、文本和表格),提供了多样化的语言和问题覆盖范围。与以往数据集不同,我们引入了无明确答案的查询,防止模型依赖表面的关键词匹配。我们评估了多种检索模型,包括基于文本的方法、多模态编码器和多模态大语言模型(MLLMs),揭示了它们的优势与局限。结果显示,尽管MLLMs显著优于基于文本和多模态编码器的模型,但在处理结构化表格和低资源语言时仍面临挑战,凸显了多语言视觉检索中的关键难题。
采用思维链(CoT)提示的大型语言模型(LLMs)在复杂推理任务中表现出色,但生成的思维过程冗长且存在大量冗余,导致推理成本增加和效率降低。我们引入了一种基于步骤熵的新型CoT压缩框架,该指标量化了单个推理步骤对整体信息贡献的程度,从而识别冗余。通过理论分析及在数学推理基准上的广泛实证验证,我们证明了低熵步骤确实高度冗余。实验表明,在DeepSeek-R1-7B、14B和Qwen3-8B模型上,惊人地可以修剪掉80%的低熵中间步骤,而对最终答案准确性的影响微乎其微。这一发现与随机或高熵修剪形成鲜明对比,后者会严重损害推理性能。基于此,我们提出了一种结合监督微调(SFT)和群体相对策略优化(GRPO)强化学习的两阶段训练策略。该方法通过策略性地引入[SKIP]标记,使LLMs能够在推理过程中自主学习生成压缩的CoTs。我们的方法在严格保持准确性的同时,显著提升了LLM的推理效率,为LLM的实际部署提供了深远影响,并深化了对推理结构的理解。
当前,将高保真视觉合成能力融入大型语言模型(LLMs)而不削弱其强大的推理能力,正引起越来越多的关注。现有方法直接训练LLMs或桥接LLMs与扩散模型,通常面临高昂的训练成本,因为骨干LLMs在预训练期间未曾接触过图像表示。我们提出了Bifrost-1,一个统一框架,它利用作为潜在变量的patch级CLIP图像嵌入,桥接了预训练的多模态LLMs(MLLMs)与扩散模型,这些嵌入天然与MLLM的CLIP视觉编码器对齐。通过轻量级调整扩散模型的ControlNet,这些patch级图像嵌入被整合进扩散模型中。为了保留MLLMs原有的多模态推理能力,我们在预测patch级图像嵌入时,为MLLM配备了一个视觉生成分支,该分支从原始MLLM参数初始化。通过无缝集成预训练的MLLMs与扩散模型,并利用patch级CLIP潜在变量,我们的框架实现了高保真可控图像生成,同时显著提升了训练效率。实验表明,Bifrost-1在视觉保真度和多模态理解方面,与先前方法相比,表现相当或更优,且训练过程中的计算量大幅降低。我们还提供了全面的消融研究,验证了设计选择的有效性。
开放权重AI系统提供了独特的优势,包括增强的透明度、开放的研究环境以及去中心化的访问。然而,它们容易受到篡改攻击,通过修改权重或激活值,这些攻击能高效地诱导出有害行为。目前,尚未形成一套完善的开放权重模型风险管理科学。现有的安全微调方法及其他训练后技术难以使大语言模型(LLMs)抵御超过几十步的对抗性微调。本文探讨了从训练数据中过滤涉及双重用途主题的文本,是否能防止不期望的能力出现,并作为一种更抗篡改的防护措施。我们引入了一个多阶段的可扩展数据过滤流程,并展示了其作为一种可行且有效的方法,能够最小化LLMs中生物威胁代理知识的存在。我们从零开始预训练了多个6.9B参数的模型,发现它们对多达10,000步和300M个生物威胁相关文本的对抗性微调攻击表现出显著的抵抗力——超越现有训练后基线方法一个数量级以上——且未观察到对无关能力的退化。然而,尽管过滤后的模型内部缺乏危险知识,我们发现当这些信息在上下文中提供时(例如,通过搜索工具增强),模型仍能利用此类信息,这表明需要一种深度防御策略。总体而言,这些发现有助于确立预训练数据筛选作为开放权重AI系统防御体系中的一个有前景的层次。
当前最先进的辟谣系统通过部署基于大型语言模型(LLM)的自主代理,将复杂声明分解为更小的子声明,逐一验证每个子声明,并汇总部分结果以生成带有解释性理由的判定。这些系统的安全性至关重要,因为易被忽视的受损辟谣系统可能会加剧错误信息的传播。本研究首次提出了针对此类代理辟谣系统的投毒攻击框架——Fact2Fiction。Fact2Fiction模仿了系统的分解策略,并利用系统生成的解释来精心制作定制的恶意证据,从而破坏子声明的验证过程。大量实验表明,在不同的投毒预算下,Fact2Fiction的攻击成功率比现有最先进的攻击高出8.9%至21.2%。Fact2Fiction揭示了当前辟谣系统的安全漏洞,强调了采取防御措施的必要性。
将口语化的数学表达式转换为严格的符号表示是一项极具挑战性的任务,这不仅涉及将语音转录为结构化符号,还需解决方程发音中固有的歧义问题。尽管自动语音识别(ASR)和语言模型(LM)已取得显著进展,但将口语数学转换为LaTeX格式的研究仍显不足。这一任务在教育与研究领域,如讲座转录或笔记创建中,具有直接应用价值。基于ASR后校正的先前工作,需进行两次转录,仅关注孤立方程,测试集有限,且缺乏训练数据及多语言覆盖。为解决这些问题,我们首次推出了一个完全开源的大规模数据集,包含超过66,000条人工标注的数学方程和句子的音频样本,涵盖英语和俄语,源自多个科学领域。除了ASR后校正模型和少样本提示外,我们还应用了音频语言模型,在MathSpeech基准测试中展示了可比的字符错误率(CER)结果(28%对比30%),用于方程转换。相比之下,在我们提出的S2L-equations基准测试中,即便考虑LaTeX格式因素,我们的模型仍以超过40个百分点的显著优势超越MathSpeech模型(27%对比64%)。我们首次建立了数学句子识别(S2L-sentences)的基准,并实现了40%的方程CER。此工作为未来多模态AI的进步,特别是在数学内容识别方面,奠定了坚实基础。
许多人注意到,生成式机器学习(ML)和人工智能(AI)模型的开发与部署遵循一种独特模式,即预训练模型会被调整和微调以适应特定的下游任务。然而,关于这些互动结构的实证研究却相对有限。本文分析了Hugging Face这一领先的模型开发众产平台上的186万个模型。通过对模型家族树——将微调模型与其基础或父模型连接起来的网络——的研究,我们发现了规模与结构各异的广泛微调谱系。借鉴进化生物学的视角来研究ML模型,我们利用模型元数据和模型卡片来衡量模型家族间的遗传相似性和特征变异。我们发现,模型往往表现出家族相似性,即当它们属于同一模型家族时,其遗传标记和特征的重叠程度更高。然而,这些相似性在某些方面与标准的无性繁殖模型有所不同,因为变异快速且具有方向性,导致两个“兄弟”模型之间的相似性往往高于父子模型对。对这些变异方向性漂移的进一步分析揭示了开放机器学习生态系统的定性洞察:许可证出人意料地从限制性商业许可证向宽松或版权左许可证漂移,常常违反上游许可证的条款;模型从多语言兼容性向仅英语兼容性演变;模型卡片通过更多地转向模板和自动生成文本,长度缩短并趋于标准化。总体而言,这项工作朝着基于实证的模型微调理解迈出了一步,并表明生态模型和方法能够带来新颖的科学洞见。
随着大型语言模型日益融入日常生活,音频已成为人机交互的关键界面。然而,这种便利性也带来了新的安全漏洞,使音频成为潜在的攻击面。我们的研究提出了WhisperInject,一种两阶段对抗性音频攻击框架,能够操控最先进的音频语言模型生成有害内容。该方法利用音频输入中人类难以察觉的微小扰动,这些扰动对人类听众而言是良性的。第一阶段采用了一种新颖的基于奖励的优化方法——结合强化学习与投影梯度下降(RL-PGD),引导目标模型绕过其自身的安全协议,生成原生有害响应。这一原生有害响应随后作为第二阶段——载荷注入的目标,在此阶段,我们使用投影梯度下降(PGD)优化嵌入到良性音频载体(如天气查询或问候信息)中的细微扰动。在严格的StrongREJECT、LlamaGuard以及人类评估安全框架的验证下,我们的实验在Qwen2.5-Omni-3B、Qwen2.5-Omni-7B和Phi-4-Multimodal模型上展示了超过86%的成功率。本研究揭示了一类新型的、实际可行的音频原生威胁,超越了理论上的漏洞利用,展示了一种可行且隐蔽的操控AI行为的方法。
在模拟现实世界挑战的复杂交互环境中评估AI智能体,对于理解其实际能力至关重要。现有的智能体基准测试虽能有效评估工具使用或结构化任务表现等技能,却往往未能全面捕捉智能体在探索性环境中自主运作的能力,这类环境要求智能体在持续扩展的上下文中进行长期、自主的推理。为促进开发具备更强内在长期推理能力的智能体,我们推出了TextQuests基准,该基准基于Infocom系列的互动小说游戏。这些文本冒险游戏,人类玩家可能需要超过30小时并执行数百次精确操作才能完成,为评估AI智能体在专注、有状态任务上的表现提供了有效代理。TextQuests基准特别设计用于评估LLM智能体的独立问题解决能力,通过禁止使用外部工具,专注于在探索性环境中展现的内在长上下文推理能力,这种环境以试错学习和单一交互会话内持续解决问题为特征。我们已在https://textquests.ai发布TextQuests。