每日精选AI研究论文及翻译
循环Transformer通过重复应用共享模块来扩展潜在计算,但顺序循环会随着循环次数的增加而增加延迟和KV缓存内存。并行循环Transformer(PLT)通过跨循环位置偏移(CLP)和共享KV门控滑动窗口注意力来缓解这一代价,使循环次数成为实用的设计选择。因此,我们从收益-成本视角研究PLT的循环次数选择:额外循环可能优化表示,但CLP在每个循环边界处也会引入位置不匹配。我们通过从头训练LoopCoder-v2来落实这项研究——这是一族具有不同循环次数的7B参数PLT代码模型,在18T token上预训练,再经过匹配的指令微调和评估。实验表明,两循环变体在代码生成、代码推理、智能体软件工程和工具使用基准测试中普遍优于无循环基线,将SWE-bench Verified从43.0提升至64.4分,Multi-SWE从14.0提升至31.0分。相比之下,三次或更多循环的变体出现性能下降,揭示了强烈的非单调循环次数效应。我们的诊断表明,第二次循环提供了主要的生产性优化,而后续循环带来衰减且振荡的更新,表示多样性降低。由于CLP引起的位置不匹配在优化增益缩小时大致保持固定,偏移成本逐渐占据主导。这种收益-成本权衡解释了PLT在两次循环处达到饱和的原因,并为循环次数选择提供了诊断依据。
视觉-语言-动作(VLA)模型得益于大规模多样化的具身数据,但扩展机器人轨迹收集成本高昂且劳动密集。最近的进展表明,大规模以自我为中心的人类视频在预训练中提供了互补的真实世界监督。然而,由于动作空间、具身结构、时间动态和监督质量上的差异,对人类数据和机器人数据的联合训练仍然具有挑战性。我们引入了ACE-EGO-0,这是一个统一的VLA预训练框架,能够联合利用异构数据源。为了从以自我为中心的人类视频中提取大规模预训练监督,我们构建了一个可扩展的以自我为中心的视频到动作流水线,将原始人类视频转换为机器人格式的伪动作轨迹。为了使这些标签与机器人演示可比,ACE-EGO-0使用基于相机空间动作、形态条件和时间对齐动作分块的统一动作表示。为了鲁棒地利用来自以自我为中心的人类视频的噪声伪动作监督,我们制定了一个具有人类辅助损失的可靠性感知训练目标,将监督集中在可靠信号上。我们在4.53千小时的机器人和模拟数据以及1.48千小时的伪动作标注的以自我为中心的人类数据上实例化ACE-EGO-0。实验表明,在可靠性感知加权下纳入大规模人类监督,一致地改进了统一的联合预训练和监督微调。ACE-EGO-0在RoboCasa GR1 TableTop和RoboTwin 2.0上实现了最先进的性能,同时展示了向真实世界双臂操作的强迁移能力。
知识蒸馏将教师模型的能力迁移至小型学生模型,但在小模型情境下表现脆弱:强制学生模仿来自更大教师的逻辑值会导致其过度聚焦于教师最尖锐的模式,从而损害训练语料库之外基准任务族的泛化能力。强化学习通过基于学生自身展开轨迹进行训练,避免了逻辑值模仿。然而,对于所有展开轨迹均失败(产生零优势并被静默丢弃)的问题,将更强的教师响应注入策略梯度会破坏在线策略假设并引发偏移。受维果茨基最近发展区理论启发,我们提出邻近策略优化区域(ZPPO),该方法将教师置于提示而非策略梯度中。对于困难问题,ZPPO构建两种改写提示:二元候选问题将一条正确教师响应与一条错误学生响应配对,作为供学生区分的匿名候选;负面候选问题则将学生的错误展开轨迹聚合为单一提示,以揭示其共享的失败模式。提示重放缓冲区持续循环每个困难问题,直至其毕业(学生对问题的平均展开轨迹准确率达到半数)或因有限容量下的先进先出策略被淘汰,从而在学生当前最近发展区内强化二元候选问题与负面候选问题。在Qwen3.5系列上(学生规模0.8B-9B四种,教师27B),经过视觉-语言模型后训练并在31项基准测试(16项VLM、10项LLM、5项视频)上评估,ZPPO在离线/在线策略蒸馏及GRPO方法中均表现更优,且在小规模模型上提升最为显著。
游戏生成是编码代理的一种新兴应用,要求模型将自然语言规范转化为可玩的交互式系统。与传统编码任务不同,游戏生成发生在游戏引擎内,脚本、场景、资源、渲染及运行时交互需共同产生连贯的游戏体验。我们将端到端游戏生成形式化为一个完整游戏制品的生成问题,该制品通过在目标环境中可观察的玩家-游戏交互来落实规范。我们认为,评估这一场景需满足三个必要条件:引擎锚定性、制品完整性及交互可验证性。我们提出一种基于交互锚定的评估框架,通过回放演示和基于量规的多模态评判来评估可执行的游戏玩法。我们将该框架实例化为GameCraft-Bench,这是一个包含15个游戏家族、共计140个Godot任务的基准测试集。对前沿编码代理的评估表明,端到端游戏生成仍极具挑战性:最强代理仅取得41.46%的得分,多数代理得分低于40%。进一步分析显示,尽管代理常能实现可识别的机制,但在提供内容充足、功能视觉反馈有效、呈现连贯的完整游戏方面仍存在困难。演示、代码及数据详见 https://tongxuluo.github.io/gamecraft-bench-website。
有效的个性化AI辅助学习要求系统不仅能生成精准适配学习者的教学内容,还需动态调整教学方式以适应多样化学习者。然而,现有教育智能体主要聚焦于讲座内容自动化与模拟,往往难以构建针对个体学习者的多模态具身教学模型。为此,我们提出LectūraAgents——一个通过端到端自适应具身教学实现个性化学习的多智能体框架。该框架的核心是模拟教授-学生关系:教授智能体(ProfessorAgent)领导一个由专业子智能体组成的协作团队,通过研究、规划、审核及具身化交付动态适配学习者需求的讲座内容。本框架做出三项主要贡献:(1)用于端到端个性化学习的层级化多智能体架构;(2)自适应具身教学机制——教授智能体在教学环境中执行可视化、具备教学动因的教学动作(如手写、高亮、下划线等);(3)教学动作-语音对齐算法(TASA),该算法基于显著性启发式规则与时序语义分割,生成与学习者画像一致的教学动作序列。我们通过基于样本标准的细粒度评估,在高中、本科及研究生阶段的多样化课程中验证LectūraAgents性能;生成的讲座材料与教学动作经教育专家评估验证。实验结果表明,相比现有方法,本框架在讲座内容质量、具身教学质量、评估效果及个性化水平上均取得持续提升,为大规模个性化学习奠定了坚实教学理论基础。
基于电子健康记录的临床早期预警系统(临床观察以不规则采样的医疗时间序列形式记录)必须提供校准的风险评分以用于患者分诊,以及可供临床医生验证的可解释性理由。大语言模型已被探索用于此任务,但它们将分级的临床风险压缩为过度自信的二元预测。这种风险极化损害了校准能力和跨患者可比性。为解决此问题,我们提出TRIAGE框架,该框架通过引发特定结局的推理理由,训练大语言模型对相互竞争的临床结局生成辩证推理。这种辩证表述减轻了风险极化,使单一模型能够基于明确的临床推理产生连续风险评分。在三个不规则采样医疗时间序列基准测试上的评估表明,与竞争基线相比,TRIAGE平均AUPRC提升3.3%,校准误差降低81%。基于大语言模型作为评判者的评估进一步显示,我们的推理理由在临床推理质量上比基线的后验解释高出20%。源代码已公开于https://github.com/HyeongWon-Jang/TRIAGE。
同策略自蒸馏(OPSD)已被证明能有效对大型语言模型(LLMs)进行后训练,但其在扩散语言模型(dLLMs)中的应用仍属空白。现有OPSD方法本质上以自回归为核心,通过从左到右的前缀条件化及令牌级差异监督注入特权信息——这种设计从根本上与dLLMs的任意顺序生成模式相冲突。我们提出d-OPSD,这是首个专为dLLMs设计的同策略自蒸馏框架。该方法包含两项核心贡献:首先,我们重构了自教师模型的构建方式,采用自生成答案作为后缀条件化,使学生模型能够从"自我未来经验"而非特权前缀中学习;其次,我们将监督从令牌级转变为步骤级,使训练过程与dLLMs的迭代去噪特性保持一致。在四项推理基准上的实验表明,d-OPSD以更优的样本效率持续超越RLVR和SFT基线,仅需RLVR约10%的优化步骤即可达到同等性能,为dLLM后训练开辟了有前景的新路径。代码已开源至https://github.com/xingzhejun/d-OPSD。
记忆已成为自我进化智能体的标准基础,但保留经验并不等同于学会如何通过经验进化。现有记忆智能体能够存储轨迹、检索反思或积累技能,却往往缺乏选择有用经验、据此行动、编写可复用知识并维护不断增长的知识库的整体能力。我们提出OPD-Evolver,一种慢-快协同进化框架,通过同策略自蒸馏来培育这样的智能体进化器。在快循环中,OPD-Evolver与四层记忆层级交互,以读取、使用、编写和维护经验,实现快速测试时进化。在慢循环中,结果校准的记忆归因及特权后见之明将这四种能力蒸馏到可部署的策略中。在跨领域基准测试中,OPD-Evolver以最高达11.5%的优势超越ReasoningBank等记忆系统,并以约5.8%的优势超越Skill0等基于训练的方法。进一步分析表明,OPD-Evolver内化了高价值经验与记忆管理,使得OPD-Evolver-9B能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等巨量模型,标志着从记忆增强智能体向真正合格的智能体进化器的迈进。
像素空间扩散模型是在全带宽含噪图像上训练的,但去噪器可用的有效信号强烈依赖于频率。在修正流扩散和自然图像幂律谱下,每个时间t的逐频带数据噪声比等高线k^{*}(t) = (1-t)^{-2/α}将承载信号的低频区域与噪声主导的高频区域分隔开来。我们证明,这种隐式的由粗到细结构并非仅仅是描述性的:它引发了容量分配问题。标准的像素空间去噪器必须内部发现移动的带宽边界,并且可能将计算花费在频率-时间区域上,而在此类区域中,最优预测退化为确定性基线,而非数据分布建模。为使这一边界显式化,我们引入频谱强制(Spectral Forcing),这是一种无参数、时间条件性的2D-DCT低通算子,在分块嵌入器之前应用于含噪输入。其截止频率随扩散时间单调扩展,并在数据端点处变为恒等映射。通过受控的合成实验,我们确定了该算子有益的适用场景:粗粒度的分块分词化,以及数据的高频内容主要是噪声而非关键信号的情况。在ImageNet-256上使用JiT-700M/32时,频谱强制在不同训练周期中均一致地改进了FID和Inception Score,展示了训练过程中的稳健增益;在更细粒度的分词化下,频谱强制仍具有竞争力。我们进一步将未修改的算子插入SenseNova-U1(一种统一的文本到图像模型)中,它改进了DPG-Bench和GenEval,表明输入侧的频谱先验可迁移至类别条件生成之外。这些结果表明,通过展示信号并隐藏噪声,可以为容量高效的像素空间扩散提供一条路径。
现有图像编辑方法大致可分为基于文本指令和基于视觉提示两类。文本指令虽具备语义表达能力,但受限于编辑结果空间控制的粗粒度;而拖拽、点击等视觉提示虽能提供精确空间引导,却受限于语义意图的固有歧义性。为融合文本与视觉提示的优势,我们提出文本-视觉联合指导图像编辑方法,将文本指令作为语义意图、稀疏视觉指令作为空间引导进行联合建模,旨在实现精确且忠实于意图的图像操控。为此,我们首先基于动态视频构建包含2.3万余个样本的文本-视觉指令配对数据集,为跨模态指令提供对齐监督。随后提出TV-Edit——一个文本-视觉指令统一编辑框架,将基于拖拽或点击的视觉指令与图像文本语义进行上下文关联,并将其提升为面向预训练编辑骨干网络的语义感知控制表示。通过融合语义意图与空间约束,与纯文本或纯拖拽方法相比,TV-Edit实现了更精确的空间控制、更低的指令歧义性以及更强的结构一致性。最后,我们建立TV-Edit-Bench基准,通过包含真实参考标注与受控文本-视觉变体的精心设计,从语义忠实度、空间对齐度与视觉一致性三个维度进行可靠评估。在多种编辑骨干网络上的实验表明,TV-Edit始终能生成更精确且忠实于意图的编辑结果,显著优于当前最先进的基于指令和基于拖拽的基线方法。
现代语言模型越来越多地采用混合架构,将全注意力与高效注意力模块(如滑动窗口注意力(SWA)和循环序列混合器)相结合。然而,这些高效模块如何塑造模型能力仍知之甚少。为弥补这一不足,我们从三个视角对混合架构进行了系统分析:缩放行为、机制分析和架构设计。首先,从缩放视角出发,我们发现高效注意力设计主要影响长上下文能力的涌现速度,而不同混合架构在充分训练下最终能达到可比较的长上下文性能。其次,在机制层面,我们证明长距离检索主要由全注意力承担,而高效注意力则塑造其优化轨迹。这解释了我们在全注意力层中观察到的一个反直觉现象——"大窗口惰性":更大的滑动窗口注意力(SWA)窗口可能延迟检索头在全注意力层中的形成。最后,受这一机制启发,我们表明:在具有小窗口滑动注意力(SWA)的混合架构中,仅对全注意力层应用NoPE(无位置编码),能在对短上下文性能影响极小的情况下显著提升长上下文性能。
视觉-语言模型(VLMs)通常被训练为被动的回答者,而其主动提出多样化、非平凡、以视觉为中心且基于场景的问题的能力仍未被充分探索。现有视觉提问器的性能受限于高质量训练数据的可用性或整理这些数据的成本。我们证明,VLM可以在无需任何外部监督的情况下,持续自我提升为视觉提问器。我们提出了一种自演进框架,该框架利用VLM自身同时作为提议器和过滤器,生成更具挑战性、信息更丰富且以视觉为中心的问题,同时维持其探索多样性以避免训练崩溃。这些问题随后被用于训练VLM的提问器模式和回答器模式。为评估提问器,我们引入了一种智能体协议,从感知、推理和多样性维度评估问题。在多种骨干VLM上的实验表明,我们的方法显著提升了自主问题生成的质量,并大幅扩展了其难度边界。在相同预算下,我们的自监督比在静态源数据上训练更为有效。此外,自演进提问器仍能保持为具有竞争力甚至更优的回答器。
从视频生成到交互式世界建模的转变对数据提出了新要求:除了带字幕的视频外,世界模型还需要基于驱动未来场景变化的动作、相机运动、状态和事件,形成时间对齐的视频-动作-语言轨迹。然而,此类数据难以大规模获取。网络视频数据集虽然视觉覆盖广泛,但缺乏可执行的动作和可靠的状态;机器人数据集提供了动作和状态监督,但成本高昂且场景多样性有限;现有的模拟器往往缺乏大规模的人类驱动交互轨迹。本文中,我们提出EgoCS-400K,一个面向世界模型的大规模基于回放的第一人称反恐精英数据集。该数据集基于公开的职业CS与CS2比赛回放文件构建,保留了人类游戏轨迹,并支持解析、回放、渲染及时间对齐。我们提取了玩家状态、视角方向、移动、键盘/按键输入、视角角度变化、武器使用、游戏事件及回合级上下文信息,并从相同轨迹中渲染出清晰的第一人称视频。EgoCS-400K包含超过40万段第一人称视频和1万小时的游戏时长,源自1000多场比赛和4万多个回合,涵盖13张地图,每个回合包含10个玩家视角。该数据集支持多种交互式视觉建模任务,包括基于动作的未来预测、状态与事件感知的场景展开、基于回放的字幕生成以及智能体第一人称动作理解。通过在规模上将视觉观测与人类动作、相机运动、游戏状态及事件相连接,EgoCS-400K在被动的网络视频、可控的游戏模拟与昂贵的真实世界具身数据之间搭建了实用的桥梁。
当前世界模型面临一个根本性矛盾:可靠的长程仿真需要深层计算,但更深层的模型部署成本高且易产生累积误差。我们通过引入循环世界模型(LoopWM)解决此问题,这是首个采用循环架构进行世界建模的方法。该方法通过参数共享的Transformer模块,迭代式地精炼潜在环境状态。与传统方法相比,这实现了高达100倍的参数效率,同时具备自适应计算能力,可自动调整深度以匹配每个预测步骤的复杂度。正交于模型规模与训练数据的扩展,LoopWM将迭代潜在深度确立为世界仿真的新扩展维度,这或将显著推动领域发展。
统一多模态建模旨在将视觉理解与生成集成于同一系统之中。然而,现有方法通常依赖于两种不同的视觉分词器,这导致了表示空间的分裂,阻碍了真正的统一建模。我们提出UniAR,一种统一的自回归框架,其中单个离散视觉分词器作为理解和生成之间的关键桥梁,使模型能够在一个共享上下文中直接解释自身生成的视觉标记,而无需额外的重新编码。UniAR通过对预训练视觉编码器进行多级特征融合以及无查找逐位量化方案的适配,既保留了高层语义与低层细节,又以最小代价扩展了有效视觉词汇量。在此基础上,统一自回归模型采用并行逐位预测方式联合预测空间分组的多级视觉编码,大幅缩短视觉序列长度并加速生成。最后,基于扩散的视觉解码器对离散视觉标记进行解码,生成高保真图像。通过大规模预训练,再经监督微调和强化学习,UniAR在图像生成和图像编辑任务上取得了最先进性能,同时在多模态理解基准上保持竞争力。项目页面详见https://sharelab-sii.github.io/uniar-web。
智能体搜索大规模语料库依赖检索器中介接口(如BM25或ColBERT)实现可扩展的候选发现。这些接口虽能有效排序相关文档,但仅以排序结果或有界文档视图呈现证据,限制了智能体重组材料、跨文档验证约束的能力。直接语料库交互(DCI)通过暴露可执行shell命令的语料库操作,实现灵活的搜索、过滤、比较和验证,从而解决了这一限制。然而,随着语料库规模增长,全语料库终端命令变得缓慢且不稳定,导致性能和效率下降。我们提出DR-DCI,一种检索器引导的DCI框架,将检索视为智能体可调用的行动,用于扩展局部工作空间。智能体并非直接在全语料库上操作,而是动态地将相关文档拉入不断演化的局部工作空间,并在此空间内执行DCI操作。这种设计兼顾了检索器级别的召回率与DCI风格的精确性:检索保持探索的可扩展性,而DCI则保留有效证据解析所需的局部操作。实验表明,DR-DCI在不同规模下均高效有效。在Browsecomp-Plus数据集上,DR-DCI达到71.2%的准确率,相比原始DCI及消融变体提升高达8.3个百分点,同时减少了工具使用次数、运行时间和估算成本。采用保留工作空间的上下文重置后,准确率进一步提升至73.3%。在语料库规模扩展实验中,DR-DCI在10万到1000万文档范围内保持有效,而原始DCI变得不稳定,BM25表现显著更差。DR-DCI还能扩展到2000万文档(每文档对应一个文件)规模的Wiki-18 QA场景,在六个基准测试中平均得分63.0,优于基于检索和基于训练的搜索智能体基线。消融分析进一步表明,排序预览和跨文档DCI对性能至关重要。
大型语言模型在标准化逻辑推理基准测试中的表现日益提升,但其在英语以外的语言中能否保持这种能力尚不明确。我们提出ChLogic——一个英汉对齐的基准测试,用于检验模型在相同潜在逻辑结构以英语和多种汉语表层实现形式表达时,是否仍能保持逻辑推理性能。该基准基于形式化逻辑模板构建,包含三个数据集:(i)通用对齐集,源自九个模板家族的60个通用命题;(ii)困难对齐集,源自40个困难问题;以及(iii)汉语专用集,覆盖15种语言特有现象类型。每个对齐项将一条英语参考表达与五种汉语实现形式配对。在Qwen3、Ministral和GLM模型上进行的实验揭示了持续的英汉性能差距。从标准汉语回译成英语通常能提升通用对齐集上的表现,但对困难对齐集产生混合效果——Qwen3-32B和GLM-5.1在翻译后表现更差。这些结果表明,汉语表层实现、翻译伪影及模型特定行为共同影响多语言逻辑推理。总体而言,ChLogic为多语言推理的鲁棒性提供了有效的压力测试。
基于可验证奖励的强化学习(RLVR)提升了语言模型的推理能力,但GRPO式优化仍容易陷入崩溃。我们通过词元级梯度动力学分析这种不稳定性,推导出一个分类体系,预测更新如何影响下一词元概率和熵。该分类体系表明,稳定性同时取决于优势符号和当前策略下的词元分布。受此发现启发,我们提出赢家优势策略优化(WAPO),一种简单的在线裁剪策略梯度目标,仅对具有正优势的完成序列进行更新。在数学推理和多跳问答基准测试中,WAPO提升了训练稳定性,并在多个模型族上与基线持平或超越基线。完整代码可在 https://github.com/layer6ai-labs/wapo 获取。
缩放模型规模,特别是深度和宽度,显著推动了基于Transformer的语言模型的发展。然而,大多数架构在所有层中保持恒定宽度,即便不同层可能承担不同的计算角色,仍将固定的参数和计算预算均匀分配。在本研究中,我们通过提出一种异形(><former)架构,实验性地探究了网络深度上的非均匀容量分配。该设计保持早期和后期层较宽,同时收窄中间层,并采用无参数的残差缩放机制。在从2亿到20亿参数(密集)以及30亿参数(混合专家)的仅解码器语言模型中,我们的><former架构在语言建模损失上持续优于参数匹配的均匀基线模型。通过降低平均层宽度,该架构还减少了总FLOPs(在拟合损失匹配的缩放曲线下减少22%)以及更小的KV缓存内存和I/O成本(减少15%)。在分析中,我们表明这种瓶颈结构在残差流中产生了定性不同的表示。总体而言,我们的结果证明,非均匀宽度分配可以实现更资源最优的语言模型缩放。
交互式世界模型旨在模拟真实用户操作下的环境动态。然而,其动作词汇大多局限于导航:多数动作对应移动(如行走、转身、环视),而与场景中物体的交互(如拿起盘子、开门或触发物理响应)要么缺失,要么局限于游戏领域,或降级为提示-全视频场景。由此生成的世界虽可视觉探索,却缺乏真正的可操作性。本文提出的ActWorld是一种交互式世界模型,它将原有的以导航为核心的生成模型扩展至支持分块自回归框架下的中期展开物体交互。我们认为,导航与交互之间的鸿沟源于两大瓶颈。第一是数据瓶颈:缺乏带精确密集标注的人-物交互数据。第二是记忆瓶颈:现有世界模型中基于近因偏差的历史压缩机制会丢弃那些因果决定后续物体状态的事件过渡帧,引发动作遗忘病理。在数据层面,我们构建了包含10万段交互视频的数据集,每段视频均通过链式推理生成逐分块字幕。在模型层面,我们引入了分层动作感知记忆设计,根据交互重要性对历史压缩进行路由,并辅以持久记忆库,在长序列展开中维护事件更新与物体身份标记。实验表明,ActWorld可在单一模型中同时支持灵活导航与丰富物体交互,在不牺牲视角控制的前提下,交互保真度显著优于纯导航基线。项目页面详见https://interactwm.github.io/ActWorld。
训练计算机使用代理(CUAs)——即通过截图和键盘/鼠标操作与图形桌面交互的模型——需要在完整的桌面环境中收集大规模、多样化的轨迹数据。目前最大的公开资源AgentNet(包含2.25万条人类轨迹)在用于监督微调(SFT)时会导致负迁移:在AgentNet上继续训练UI-TARS 7B模型,其OSWorld任务成功率从26.3%下降至8-10%。我们提出ProCUA-SFT数据集,该数据集包含310万个步骤级SFT样本,源自通过2484种应用组合生成的9.3万条合成轨迹。该数据集由一个全自动流水线生成,该流水线:(i)在包含真实世界内容的Live桌面上合成具身任务——包括来自SpreadsheetBench的912个电子表格、来自Zenodo10K的约1万个宽松许可的演示文稿,以及多应用OSWorld配置——并在生成轨迹前通过二元前置条件检查验证每个任务的可行性。单一视觉语言模型(Kimi-K2.5)同时担任目标生成器、前置条件判断器和轨迹执行器,消除了规划器与执行器之间的能力差距。每条轨迹被扩展为精确复现推理时上下文布局的步骤前缀样本。在ProCUA-SFT上对UI-TARS 7B进行单周期微调后,其在OSWorld上的成功率提升至45.0%——相比基础模型提升18.7个百分点,且比AgentNet训练版本高出超35个百分点。ProCUA的子集已被纳入Nemotron 3 Nano Omni模型的训练数据,为其计算机使用能力提供了贡献。
深度研究智能体正越来越多地以其搜索证据、对检索来源进行推理并生成有据可依的回答的能力来评估。然而,现有的浏览基准大多假设用户查询与支撑证据使用同一种语言,而未考虑当相关证据以另一种语言出现时,智能体搜索系统是否仍能有效运作。我们提出了 XBCP(跨语言 BrowseComp-Plus),这是一个受控基准,它保留了 BrowseComp-Plus 的英文问答空间,但改变了支撑文档的语言。XBCP 实现了两种互补的设置:在跨语言设置中,每个查询与一种指定语言的证据配对;在多语言设置中,完整的证据语料库均匀且随机地分布在 12 种语言中,涵盖高资源和低资源语言。我们使用稀疏和稠密的多语言检索器评估了四种深度研究智能体,衡量了答案准确性、证据召回率、搜索行为、校准度、引用准确度以及 oracle 检索。结果显示,当证据被翻译后,性能显著下降。即使是强大的稠密检索器也会损失证据召回率,智能体变得校准度更低,引用证据的可靠性也更差。值得注意的是,即使直接提供所有黄金证据,准确性仍然较低。这些发现表明,跨语言深度研究既暴露了检索失败的问题,也暴露了智能体在整合语言不匹配证据时存在的独立困难。
多模态大语言模型(MLLMs)在众多视觉任务中展现出令人瞩目的能力,但当面对复杂开放场景时,常因事实根基不牢而表现欠佳。尽管近期出现的多模态深度搜索代理尝试通过调用外部工具解决这一问题,但视觉原生的搜索范式仍未被充分探索。现有方法主要依赖具备显式语义的简单图像及纯文本证据轨迹,这限制了代理执行跨模态多跳推理与搜索的能力。针对这些局限,我们提出Visual-Seeker——一种通过主动视觉推理实现的视觉原生多模态深度搜索代理。该代理不再将视觉视为静态输入,而是主动关注细粒度视觉细节,在搜索过程中动态采撷视觉证据。为释放其视觉原生潜能,我们设计了主动视觉推理数据流水线,并合成了5000条高质量多模态轨迹用于模型训练。大量实验表明,该方法在五个具有挑战性的多模态搜索基准上均达到最优性能,甚至超越多个专有模型,验证了其在真实网络环境中稳健的视觉原生推理与搜索能力。代码与数据可通过以下链接获取:https://github.com/ZhengboZhang/Visual-Seeker。
如何让大型语言模型(LLM)在保持通用能力的前提下,深度遗忘特定知识与价值观,仍是遗忘学习中的核心挑战。然而,现有方法极易通过微调或少样本提示恢复,表明其遗忘仅停留在浅层。我们找到了根本原因:现有方法针对的是同时与保留集和微调攻击者可恢复子空间共享的表示,这使得遗忘既破坏通用能力,又易于逆转。为此,我们提出RepSelect(表征选择性)方法,通过在每次更新前压缩权重梯度的主成分,隔离遗忘集特有的表征,从而在限制微调可恢复内容的同时保持通用能力不受影响。我们在两类遗忘内容(生物危害知识与虐待倾向)以及四种模型家族(涵盖密集架构与混合专家架构:Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite)上进行了评估。与五种主流基线方法(GradDiff、NPO、SimNPO、RMU、UNDIAL)相比,RepSelect在重新学习后的答案准确率下降幅度上比最强基线高出4至50倍,并且对少样本提示攻击几乎完全鲁棒。因此,针对选择性表征是实现深层且鲁棒的大语言模型遗忘的重要一步。
大型语言模型(LLM)能否理解并推理量子算符?尽管LLM在数学和符号推理方面展现出卓越能力,但它们对幺正矩阵等量子表示形式本质上仍存在认知盲区。本研究通过提出一种将幺正算符映射至LLM潜在空间的方法,在弥合这一鸿沟方面迈出了重要一步,从而实现对量子输入与语言输入的统一建模。我们以泡利旋转门集上的Clifford+T电路合成为实例验证了这一构想,该模型不仅取得了与现有最优方法相匹敌的结果,而且其性能随训练数据量呈线性增长,未呈现任何饱和迹象。该方法进一步实现了语言条件驱动的合成能力,使得训练阶段未见过的门约束可直接通过自然语言进行指定。这项研究为构建具备量子感知能力的基础模型开辟了新路径,此类模型能够原生性地理解并推理量子操作,其潜在影响将广泛涉及量子编译与算法发现等领域。
用于检索的视觉编码器通常通过类别标签监督进行训练:每个训练样本对简化为一个标量,统一地推开或拉近嵌入向量,仿佛所有视觉属性要么不同要么匹配。而多模态大语言模型(MLLM)面对同一对图像时,能言明这些属性,并据此预测图像是否属于同一类别。我们提出SAGA框架,将这种基于语言、感知属性的能力转化为编码器自身的训练信号。具体而言,我们利用群体相对策略优化(GRPO)对MLLM基于视觉编码器令牌的正确预测进行奖励。由于正确预测要求这些令牌暴露图像对之间具体差异或匹配的属性,梯度推动编码器编码这些属性,将统一的样本对层级标量替换为属性解析式监督。一种辅助注意力蒸馏损失将编码器的嵌入锚定到MLLM所关注的令牌上,而标准度量学习损失则塑造用于最近邻检索的嵌入几何结构。MLLM全程冻结,推理阶段丢弃,部署成本与度量学习基线相同。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves数据集上的零样本图像检索任务中,SAGA将Recall@1相比最先进基线提升了3至6个百分点。
参考引导生成(如对象合成、定制化)已取得显著进展,但当前流程存在一个根本性局限:用户提供面向对象的高分辨率参考图像(HRRI)在输入模型前会被下采样至固定低分辨率(LR),导致精细细节在输出生成前即被丢弃。此外,生成步骤还会在此基础上引入自身伪影(如身份畸变)。现有参考引导生成内容精炼(RefGCR)方法虽可修正部分伪影,但仍局限于低分辨率域;参考引导超分辨率(RefSR)方法虽能恢复分辨率,却假设了自然图像退化模型,忽视了生成管线的伪影分布特性。为同时解决这两项不足,我们提出新任务:参考引导生成内容超分辨率-精炼(RefGC-SR²),其核心思路是在后处理阶段复用原始高分辨率参考图像,同步恢复丢失细节、修正生成伪影并提升输出分辨率。我们为RefGC-SR²任务构建了首个真实三元组数据生成管线,训练基于双联图像条件的生成器以合成预训练模型无法提供的配对低质量锚点。进一步地,我们提出面向RefGC-SR²的频率感知扩散变换模型,能选择性注入高分辨率参考图像的精细细节并消除生成伪影。大量实验表明,我们的RefGC-SR²模型能够(i)忠实地根据参考图像精炼对象身份,并(ii)恢复高分辨率细节,最终结果相比现有RefGCR和RefSR基线方法在质量上显著提升,实际可用性更强。
从场景图像和文本生成逼真的人体运动涉及低频姿态语义和高频物理动力学。然而,许多现有方法使用单一共享码本对运动进行标记化,将异构运动信号强制映射到同一量化空间。我们通过对人体运动数据进行频域分析,发现单码本量化与运动统计之间存在明显不匹配:五个DCT系数可捕获关节位置能量的93%,但仅捕获关节速度能量的37%,这可能导致量化偏向于姿态统计,而低频地表示高频速度分量。第二个挑战在于如何调整标准自回归模型以有效建模运动序列中的高频物理信号。为此,我们提出DSFT,一种双流频率分词器,将运动分离为基础流和物理流,并通过DCT截断与BPE分别独立压缩。此外,我们提出MotionVLA,一种基于Qwen3.5的模型,将基础令牌与物理令牌排列在统一序列中,其中物理令牌在基础令牌之后进行预测。在HumanML3D和MBench上的实验表明,尽管使用轻量级2B骨干网络,MotionVLA在HumanML3D上将与真实数据的多样性差异降低了超过50%,并在MBench上将运动-条件一致性提升了3.8%,支持频率感知的双流解耦作为自回归运动生成的有效范式。代码:https://github.com/AIGeeksGroup/MotionVLA。网站:https://aigeeksgroup.github.io/MotionVLA。
分解推理架构将预填充与解码阶段物理分离至不同的GPU池,形成共享固定硬件预算的竞争性"代理"。本文以NVIDIA Dynamo为具体案例,首次对该架构进行了形式化博弈论分析(据我们所知)。我们将分解式服务建模为三个耦合博弈:预填充池与解码池之间的双人资源博弈、分层KV缓存上的自私缓存博弈,以及具有正外部性的请求路由拥塞博弈。我们对后两个博弈进行了实证验证,而预填充/解码资源博弈采用解析方法处理(第9.2节)。我们刻画了GPU饱和如何引发状态转换,从而改变博弈的收益结构:在饱和阈值以下,自私行为的无政府价格(PoA)有界;在饱和时,超线性延迟和缓存外部性导致我们的经验估计量PoA-hat(定义见第6.4节)上升。基于此分析,我们设计了一种自适应控制器,可实时检测饱和转换并相应调整路由参数,从缓存亲和性利用切换至负载均衡的拥塞避免。我们在由3个NVIDIA B200节点组成的Dynamo集群上,使用两个模型实例化了该框架:Nemotron-4-340B(张量并行度=8,全节点工作节点,跨InfiniBand KV传输)和Llama-3.1-70B(张量并行度=4),发现两个模型均呈现相同的三区域PoA-hat结构,且第一个后拐点网格点均为C=128。自适应路由使每个模型转移至更优工作点。最强结果体现在70B 1P/5D拓扑结构上:饱和阶段PoA-hat下降3.1倍(从66.4降至21.5),吞吐量成本仅13%。在70B 1P/2D拓扑上,PoA-hat下降2.2倍,TTFT P99下降7.6倍(见第8.5节)。
多智能体LLM系统通过存储仓库、向量索引和工具注册表共享状态。我们将此类共享建模为在确定性生成语义下的长期读取-生成-写入操作——这是持久执行引擎通过确定性重放所强化的机制——并在TLA+中形式化了四种并发异常:陈旧生成、幻象工具、因果级联和工具效应重排序,这些异常结构上类似于经典隔离异常,每种均配有TLC反例。这些异常上的排除格是平凡的;贡献在于机械验证了其内一个极大链L₀ ⊊ ⋯ ⊊ L₄的可实现性与严格分离——据我们所知,这是此类运行时首个经机器校验的一致性层次结构。274个Verus验证义务(零assume、零admit;信任基础:两条结构公理及一个互斥对应关系)证明了检测器相对于规约的可靠性与完备性,以及各运行时的回避集。三个已部署的Rust运行时实现了L₀-L₁(悲观锁、可序列化快照隔离、默认SI),每个均经陈旧生成验证并精化至其状态机;L₂-L₄通过执行模式验证,采用无依赖预防双生技术(A3、A6、A2:0/1000 vs 1000/1000),L₂在三族模型上在线运行(120个撤回会话中均预防A3)。我们复现了字节跳动deer-flow中一个静默丢失更新问题,将其修复形式化为从L₀到L₁的已验证精化,并在LangGraph的ToolNode未修改输出中展示了工具效应重排序,该问题通过L₃提交顺序序列器消除。验证后的检测器、精化与可实现性制品为本工作贡献;现象与格结构属于经典范畴。