每日精选AI研究论文及翻译
GUI智能体通过视觉界面而非编程API驱动应用程序,利用点击、滑动和键盘输入与任意软件交互,从而覆盖了基于命令行界面智能体无法触及的长尾应用。然而该领域的发展瓶颈主要不在于模型能力,而在于缺乏统一的全栈基础设施:在线强化学习训练受限于环境不稳定性和封闭流程,评估标准在不同研究间存在隐性偏移,训练完成的智能体鲜少能部署至真实用户的实体设备。我们推出开源框架ClawGUI,通过一体化架构解决这三重挑战。ClawGUI-RL首创支持并行虚拟环境与实体设备的开源GUI智能体强化学习基础设施,集成GiGPO算法与过程奖励模型实现细粒度步骤级监督。ClawGUI-Eval在6个基准测试和11+模型上构建全标准化评估流程,与官方基线对比重现度达95.8%。ClawGUI-Agent通过12+聊天平台将训练完成的智能体部署至Android、HarmonyOS和iOS系统,支持混合命令行-图形界面控制及持久化个性记忆。在该管道中端到端训练得到的ClawGUI-2B模型,在MobileWorld纯图形界面测试中达成17.1%的成功率,较同规模MAI-UI-2B基线提升6.0%。
RLVR方法虽能提升大语言模型的推理能力,但其在难题上的效果常受限于严重的奖励稀疏性。近期基于提示的强化学习方法通过注入部分解或抽象模板缓解稀疏问题,但这些方法通常通过增加标记数量来扩展指导,会引入冗余性、不一致性及额外训练开销。我们提出KnowRL(知识引导的强化学习),该强化学习训练框架将提示设计视为最小充分引导问题。在强化学习训练过程中,KnowRL将引导分解为原子化知识点(KP),并采用约束子集搜索(CSS)构建紧凑且具备交互感知的训练子集。我们进一步发现剪枝交互悖论——移除单个KP可能有益,而移除多个此类KP反而有害——并基于此依赖结构显式优化鲁棒的子集筛选方案。我们从OpenMath-Nemotron-1.5B出发训练得到KnowRL-Nemotron-1.5B模型。在1.5B规模的八个推理基准测试中,KnowRL-Nemotron-1.5B始终优于强化的RL和提示基线方法。无需在推理时使用KP提示的情况下,该模型已达到70.08%的平均准确率,较Nemotron-1.5B提升9.63个百分点;加入精选KP后性能进一步提升至74.16%,创造了该规模下的新性能纪录。模型、精选训练数据及代码已开源:https://github.com/Hasuer/KnowRL。
同策略蒸馏(OPD)已成为大语言模型后训练的核心技术,但其训练动力学机制仍缺乏深入理解。本文对OPD的动态特性与作用机制进行了系统性探究。我们首先发现决定OPD成败的两个关键条件:(i)学生模型与教师模型需具备兼容的思维模式;(ii)即使思维模式一致且评分更高,教师模型必须提供学生模型在训练中未曾掌握的新能力。通过弱到强反向蒸馏实验,我们验证了同系列1.5B与7B参数规模的教师模型从学生模型视角看具有分布不可区分性。在令牌级机制层面,研究发现成功的OPD表现为学生模型访问状态下的高概率令牌渐进对齐——这些集中于97%-99%概率质量的小规模共享令牌集合构成了训练关键。我们进一步提出两种实用策略挽救失败的OPD:离策略冷启动和教师对齐提示选择。最后研究揭示,OPD看似免费的密集令牌级奖励实则存在代价,这引发了对OPD能否扩展到长周期蒸馏场景的质疑。
自主AI研究发展迅猛,但长周期机器学习研究工程仍面临挑战:智能体需在任务理解、环境配置、代码实现、实验验证和问题调试等环节中维持数小时乃至数天的连贯推进。我们提出AiScientist系统,基于"强效长周期性能需兼具结构化编排与持久化状态连续性"的核心原则,构建了面向机器学习研究的自主长周期工程框架。该系统融合分层编排机制与权限限定的"文件总线"工作区:顶层编排器通过精要摘要和工作区图谱维持阶段控制,而专业化智能体持续基于持久化工件(如分析报告、计划方案、代码实现及实验证据)进行重定位,而非主要依赖对话传递,实现"薄控制层+厚状态层"的架构。在两项互补性基准测试中,AiScientist将PaperBench评分较最佳匹配基线平均提升10.54分,并在MLE-Bench Lite上实现81.82%的任意奖牌获得率。消融实验进一步表明,"文件总线"协议是性能关键驱动因素,移除后导致PaperBench下降6.41分、MLE-Bench Lite下降31.82分。这些结果表明,长周期机器学习研究工程本质上是基于持久化项目状态协调专业化工作的系统性问题,而非纯局部推理问题。
自主图形用户界面代理的崛起引发了数字平台的反制措施,但现有研究过度关注实用性与鲁棒性,而忽视了反检测这一关键维度。我们认为,代理要在以人为中心的生态系统中生存,必须进化出拟人化能力。我们提出"屏幕图灵测试"框架,将交互形式化建模为检测器与代理之间的MinMax优化问题,其中代理以最小化行为差异为目标。通过采集新型高保真移动触控动力学数据集,我们发现基于原始大语言模型的代理因运动学特征不自然而极易被识别。为此,我们建立了代理拟人化基准测试体系及检测指标,用以量化模仿能力与效用之间的权衡。最后,我们提出从启发式噪声注入到数据驱动的行为匹配等多种方法,证明代理在理论和实践层面均能实现高拟真度且不损失性能。这项工作将研究范式从"代理能否完成任务"转向"如何在人类中心化生态中执行任务",为对抗性数字环境中的无缝共存奠定基础。
视频生成领域的最新进展为三维场景创建开辟了新范式:通过生成可控制摄像机的场景漫游模拟视频,再借助前馈重建技术将其提升为三维模型。这种生成式重建方法融合了视频模型的视觉保真度与创作能力,并能输出适用于实时渲染与仿真的三维内容。要实现大规模复杂环境的生成,需要在长镜头轨迹中保持三维一致性,这涉及大幅视角变化和场景重访,而现有视频模型在此类设定下性能会迅速衰退。当前长序列生成方法主要受限于两种退化形式:空间遗忘与时间漂移。随着探索推进,已观测区域会脱离模型的时间上下文,导致模型在重访时被迫虚构结构;同时,自回归生成会随时间累积微小合成误差,逐渐扭曲场景外观与几何。我们提出Lyra 2.0框架,用于生成可持久探索的大规模三维世界。针对空间遗忘问题,我们维护逐帧三维几何信息并仅用于数据路由——检索相关历史帧并与目标视点建立稠密对应关系——而外观合成仍依赖生成先验。为解决时间漂移,我们采用自增强历史数据进行训练,使模型接触自身退化输出,从而学会纠正而非传播漂移。这些技术共同实现了显著延长且保持三维一致性的视频轨迹,并以此微调前馈重建模型,可靠地复原高质量三维场景。
近端策略优化(PPO)在基于可验证奖励的大语言模型推理任务对齐中具有核心地位。然而,标准令牌级PPO在此场景下面临挑战:长思维链跨度下的时序信用分配不稳定,且价值模型的内存开销过高。虽然如GRPO这类无评论器方案能缓解上述问题,但它们需要通过多次采样进行基线估计,导致显著的计算开销,严重制约训练吞吐量。本文提出序列级PPO(SPPO),这一可扩展算法将PPO的样本效率与基于结果更新的稳定性相融合。SPPO将推理过程重构为序列级上下文赌博机问题,采用解耦的标量价值函数来获取低方差优势信号,无需多重采样。在数学基准测试上的大量实验表明,SPPO显著优于标准PPO,并与计算密集型分组方法的性能相当,为推理大语言模型的对齐提供了资源高效的框架。
准确评估是大型语言模型(LLM)生态系统的核心环节,它指导着不同应用场景下的模型选择与下游应用。然而在实践中,生成式输出的评估通常依赖僵化的词汇匹配方法来提取和评判答案,这容易将模型真实的问题解决能力与其对预设格式规范的遵循程度混为一谈。虽然近期提出的"LLM即评判员"方法通过评估语义正确性而非严格的结构一致性来缓解这一问题,但这些方法也带来了巨大的计算开销,使得评估成本高昂。本研究首先通过涵盖36个模型和15项下游任务的大规模实证研究,系统性地揭示了词汇评估的局限性,证明此类方法与人类判断相关性较弱。为突破这一局限,我们提出"BERT即评判员"——一种基于编码器的参考式生成场景答案正确性评估方法,该方法对输出表述的差异性具有鲁棒性,且仅需对合成标注的问题-候选答案-参考答案三元组进行轻量级训练。实验表明,该方法在持续超越词汇匹配基线的同时,与规模大得多的LLM评判员性能相当,在二者之间实现了理想的平衡,为可靠、可扩展的评估提供了新范式。最后,我们通过大量实验深入剖析了BERT即评判员的性能表现,为实践者提供具体指导,并开源所有项目资源以促进下游应用。
我们介绍了Nemotron 3 Super(1200亿参数,激活120亿参数)这一混合Mamba-注意力专家混合模型的预训练、后训练及量化过程。作为Nemotron 3系列的首个模型,它具备三大特性:1)首次采用NVFP4格式进行预训练;2)引入LatentMoE——一种新型专家混合架构,在每FLOP精度与每参数精度间实现双优;3)集成MTP层,通过原生推测解码实现推理加速。该模型在25万亿token上进行预训练后,经过监督微调(SFT)与强化学习(RL)的后训练阶段。最终模型支持高达100万token的上下文长度,在主流基准测试中达到可比精度,同时相比GPT-OSS-120B和Qwen3.5-122B分别实现最高2.2倍与7.5倍的推理吞吐量提升。Nemotron 3 Super的数据集及基础版、后训练版、量化版检查点已在HuggingFace平台开源。
当前计算机使用代理(CUA)已能在真实数字环境中自主完成复杂任务,但若被误导,它们也可能被程序化用于实施有害行为。现有安全评估主要针对滥用和提示注入等显性威胁,却忽视了一种微妙而关键的情境——用户指令完全善意,但危害源于任务上下文或执行结果。我们推出OS-BLIND基准测试,在非预期攻击条件下评估CUA安全性,该基准包含12个类别、8种应用场景和2大威胁集群(环境嵌入威胁与代理主动危害)下的300项人工设计任务。对前沿模型和代理框架的评估表明,大多数CUA的攻击成功率(ASR)超过90%,即使经过安全对齐的Claude 4.5 Sonnet也达到73.0%的ASR。更值得注意的是,当Claude 4.5 Sonnet部署于多智能体系统时,该漏洞会进一步加剧——ASR从73.0%升至92.7%。分析还发现,现有安全防御机制在用户指令善意时保护有限:安全对齐主要在前几个步骤激活,后续执行中很少重新介入;而在多智能体系统中,任务分解会掩盖有害意图,导致安全对齐模型失效。我们将公开OS-BLIND基准,以推动学界进一步研究并解决这些安全挑战。
近期,大型语言模型已将SVG生成方式从可微分渲染优化转向自回归程序合成。然而,现有方法仍沿用自然语言处理中的通用字节级标记化方案,难以体现矢量图形的几何结构特征。数值坐标被分割为离散符号,破坏了空间关系并引入严重标记冗余,常导致坐标幻觉和低效的长序列生成。为解决这些问题,我们提出HiVG——一个专为自回归矢量图形生成设计的层次化SVG标记化框架。HiVG将原始SVG字符串解构为结构化原子标记,并将可执行的命令-参数组进一步压缩为几何约束的片段标记,在保持语法有效性的同时显著提升序列效率。为缓解空间失配问题,我们引入层次化均值-噪声初始化策略,向新标记嵌入中注入数值排序信号和语义先验。结合逐步增加程序复杂度的课程训练范式,HiVG能更稳定地学习可执行SVG程序。在文本到SVG和图像到SVG任务上的大量实验表明,相比传统标记化方案,该框架在生成保真度、空间一致性和序列效率方面均有提升。代码已开源:https://github.com/ximinng/HiVG
多模态深度搜索代理通过迭代收集文本与视觉证据,在解决复杂任务方面展现出巨大潜力。然而,由于现有方法常面临上下文爆炸或关键视觉信号丢失的问题,如何管理长周期多模态输入中的异构信息与高令牌成本仍是关键挑战。为此,我们提出了一种新型长周期多模态深度搜索框架LMM-Searcher,其核心是基于文件的视觉表示机制。通过将视觉资源卸载至外部文件系统并映射为轻量级文本标识符(UID),我们的方法在保留多模态信息供后续调用的同时,有效降低了上下文开销。我们为代理配备了定制化的图像获取工具,实现了渐进式按需视觉加载的主动感知策略。此外,我们设计了数据合成流程,用于生成需要复杂跨模态多跳推理的查询指令。基于该流程,我们提炼出1.2万条高质量轨迹数据,对Qwen3-VL-Thinking-30A3B进行微调,将其转化为专业的多模态深度搜索代理。在四个基准测试上的大量实验表明,我们的方法可成功扩展至100轮搜索周期,在MM-BrowseComp和MMSearch-Plus等挑战性长周期基准中达到开源模型的领先性能,同时在不同基础模型上展现出强泛化能力。代码将在https://github.com/RUCAIBox/LMM-Searcher发布。
大型语言模型智能体从多个来源接收指令——系统消息、用户提示、工具输出等——每个来源具有不同的可信度与权威层级。当这些指令发生冲突时,模型必须可靠地遵循最高权限指令以保持安全性和有效性。主流范式"指令层级"采用固定且有限的权限等级(通常少于五级),通过刚性角色标签(如系统>用户)进行定义。这种范式难以适应现实世界的智能体场景,因为冲突可能来自更多来源和情境。本研究提出"多层级指令体系",该范式能解决具有任意多权限层级的指令冲突。我们创建了首个面向该范式的基准测试集ManyIH-Bench,要求模型处理多达12个具有不同权限层级的冲突指令,包含853项智能体任务(427项代码生成与426项指令遵循)。该基准通过LLM生成并经人工验证的约束条件,构建了涵盖46种现实智能体的真实且复杂的测试场景。实验表明,当前最先进的模型在指令冲突升级时表现不佳(准确率约40%)。这项工作揭示了在智能体场景中亟需开发能实现细粒度、可扩展指令冲突解决方法的紧迫性。
训练具身智能代理的关键在于仿真环境的视觉保真度与动态人体建模能力。现有模拟器主要依赖基于网格的光栅化技术,视觉真实感有限;其动态人体化身功能(若具备)也受限于网格表示法,制约了代理在真实人类活动场景中的泛化能力。我们提出Habitat-GS——基于Habitat-Sim拓展的以导航为核心的具身智能模拟器,它融合了3D高斯溅射场景渲染技术与可驱动的高斯化身,同时保持与Habitat生态系统的完全兼容。该系统通过3DGS渲染器实现实时照片级真实感渲染,支持从多源数据导入可扩展的3DGS资源。在动态人体建模方面,我们引入高斯化身模块,使每个化身既能作为逼真视觉实体,又能充当有效导航障碍物,让代理在逼真环境中学习人类感知行为。点目标导航实验表明,基于3DGS场景训练的代理具有更强的跨领域泛化能力,其中混合领域训练策略效果最佳。化身感知导航评估进一步证实高斯化身可实现有效的人类感知导航。性能基准测试验证了系统在不同场景复杂度和化身数量下的可扩展性。
当前文本到图像合成领域正朝着单步采样的方向发展,但现有方法仍面临保真度、推理速度与训练效率之间的三重权衡。依赖外部判别器的方法虽能提升单步生成质量,却常伴随训练不稳定、高GPU内存占用和收敛缓慢等问题,不利于模型扩展与参数高效调优。相比之下,基于回归的蒸馏与一致性目标更易优化,但在单步约束下通常会丢失细节特征。我们提出APEX框架,其核心理论突破在于:通过条件偏移可从流模型中内生提取对抗性校正信号。该技术构建的偏移条件分支,其速度场可作为模型当前生成分布的独立估计量,所产生的梯度经证明与GAN目标对齐,从而替代了导致梯度消失的样本依赖型判别器。这种无判别器设计保持架构不变,使APEX成为兼容全参数与LoRA调优的即插即用方案。实验表明,我们的6亿参数模型在单步生成质量上超越120亿参数的FLUX-Schnell(参数量为其1/20)。基于Qwen-Image 200亿参数的LoRA调优中,APEX仅用6小时即在单步推理时达到0.89的GenEval分数,超越原50步教师模型(0.87),实现15.33倍推理加速。代码已开源:https://github.com/LINs-lab/APEX。
扩散模型常从变分自编码器、分数匹配或流匹配等多角度引入,并伴随密集且技术性强的数学推导,令初学者难以掌握。一个经典问题是:反向过程如何逆转前向过程,从纯噪声中生成数据?本文从新颖的朗之万动力学视角系统梳理扩散模型,给出更简洁清晰且直观的解答。我们同时回应以下问题:基于常微分方程和随机微分方程的扩散模型如何统一于同一框架?为何扩散模型理论上优于普通变分自编码器?为何流匹配本质上并不比去噪或分数匹配更简单,而是在最大似然意义下等价?我们论证朗之万视角能为这些问题提供清晰直接的答案,弥合现有扩散模型解释的鸿沟,展示不同表述如何在统一框架内相互转化,为学习者和资深研究者提供兼具教学价值与深层洞见的理解路径。
尽管扩散模型在视觉生成领域占据主导地位,但其计算效率低下,无论复杂度差异均采用统一计算负荷。相比之下,自回归模型通过其可变的似然度展现出天然的复杂度感知能力,但常因有损的离散化标记和误差累积而受限。本研究提出生成式精修网络(GRN),一种新一代视觉合成范式以解决上述问题。GRN的核心突破在于通过理论近乎无损的层次化二值量化(HBQ)攻克离散标记化瓶颈,其重建质量可与连续表征相媲美。基于HBQ的潜空间,GRN通过全局精修机制对自回归生成进行根本性升级——该机制如同人类艺术家作画般逐步完善和修正作品。此外,GRN融合了熵引导采样策略,在保持视觉质量的前提下实现复杂度感知的自适应步长生成。在ImageNet基准测试中,GRN创下图像重建(0.56 rFID)和类别条件图像生成(1.81 gFID)的新纪录。我们还将GRN扩展至更具挑战性的文本到图像及文本到视频生成任务,在同等规模下实现卓越性能。现公开全部模型与代码,以推动GRN的后续研究。
尽管显性动作数据的匮乏限制了视觉-语言-动作(VLA)模型的发展,人类行为视频却提供了可扩展但未标注的数据源。利用大规模人类视频数据集的关键挑战在于如何将视觉信号转化为独立于本体论的潜在动作表征。然而,潜在动作表征从视觉观察中推导稳健控制的能力尚未得到严格验证。我们提出潜在动作表征基准(LARY),这是一个统一评估框架,可同时评估高级语义动作(做什么)和低级机器人控制(怎么做)的潜在动作表征。该精心构建的数据集涵盖151个动作类别下超过100万段视频(1000小时),并包含62万张图像对和59.5万条运动轨迹,覆盖多样化的具身体现和环境配置。实验揭示两个关键发现:(1)未经任何动作监督训练的通用视觉基础模型,其表现持续优于专门的具身潜在动作模型;(2)基于潜在表征的视觉空间与物理动作空间的对齐性本质上优于基于像素的空间。这些结果表明,通用视觉表征天然编码了物理控制所需的动作相关知识,且语义级抽象作为从视觉到动作的路径,本质上比像素级重建更为有效。
从二维输入重建三维表征是计算机视觉与图形学领域的一项基础任务,成为理解物理世界并与之交互的基石。传统方法虽能实现高保真度重建,但受限于耗时的逐场景优化或特定类别的训练,制约了其实际部署与可扩展性。因此,可泛化的前馈式三维重建技术近年来快速发展。这类方法通过学习将图像直接映射为三维表征的模型,仅需单次前向传播即可实现高效重建,并具备强大的跨场景泛化能力。本综述源于一项关键发现:尽管现有前馈方法的几何输出表征各异(从隐式场到显式基元),但它们共享相似的高层架构模式,如图像特征提取主干、多视图信息融合机制和几何感知设计原则。基于此,我们抽象掉表征形式的差异,转而聚焦于模型设计,提出一种新颖的、与输出格式无关的模型设计策略分类法。该分类法将研究方向归纳为驱动近期发展的五大核心问题:特征增强、几何感知、模型效率、数据增强策略和时序感知模型。为通过实证基础与标准化评估支撑该分类体系,我们进一步系统梳理了相关基准测试与数据集,并基于前馈三维模型对现实应用进行了广泛讨论和分类。最后,我们展望了未来研究方向,以应对可扩展性、评估标准和世界建模等开放挑战。
在线策略蒸馏(OPD)已成为大语言模型后训练的高效范式。然而,标准OPD在整个训练过程中需要实时运行的教师模型推理服务器,导致显著的基础设施开销。本研究探索了离线执行在线策略蒸馏的可行性。一种自然思路是预先计算教师模型在SFT轨迹上的对数概率并在训练中重复使用,但实际应用中这种离线方案无法稳定达到标准OPD的性能。为解析这一差异,我们发现了OPD流程中一个被忽视的关键条件——教师一致性,即要求监督微调(SFT)和OPD必须使用同一教师模型。研究表明,违反该条件会引入不可约的梯度偏差,导致无论训练时长如何,离线和在线OPD都会收敛至次优定点。基于此,我们提出Lightning OPD框架,通过预计算SFT轨迹的教师对数概率来确保教师一致性,从而完全消除实时教师服务器的需求。进一步证明在教师一致性条件下,Lightning OPD与标准OPD具有相同最优解,其梯度差异有界,且隐含的正则化效应可防止策略漂移。在数学推理和代码生成任务上的大量实验表明,Lightning OPD以显著提升的效率达到最优性能:从SFT初始化的Qwen3-8B-Base模型出发,仅用30 GPU小时即在AIME 2024上达到69.9%的准确率,相比标准OPD实现4倍加速,大幅降低了LLM后训练的学术研究门槛。
我们提出了一种判别式多模态奖励模型,可在单次前向传播中对所有候选响应进行评分。传统的判别式奖励模型需对每个响应独立评估,需执行多次前向传播(每个潜在响应对应一次)。我们的方法通过分隔符将多个响应拼接,并对其标量分数应用交叉熵损失,从而实现直接比较推理和高效的N向偏好学习。这种多响应设计相比传统单响应评分方式,可实现最高达N倍的实时加速和浮点运算量降低。为突破现有成对基准测试的局限,我们构建了两个新基准:(1) MR^2Bench-Image包含对8个不同模型响应的人工标注排序;(2) MR^2Bench-Video是基于视频的大规模奖励基准,源自94K个众包人工对视频问答的成对评判(涵盖19个模型),通过偏好图集成进行去噪处理。两个基准均提供从完整排序中采样的4响应评估变体。基于4B参数视觉语言主干网络,结合LoRA微调和轻量级MLP价值头,我们的模型在六个多模态奖励基准(包括MR^2Bench-Image、MR^2Bench-Video和四个现有基准)上取得最先进成果,其表现优于现有更大的生成式和判别式奖励模型。我们进一步证明,当该奖励模型与GRPO结合用于强化学习时,能生成改进的策略模型——这些模型在标准多模态基准上保持性能的同时,显著提升开放式生成质量,在训练稳定性和开放式生成质量上大幅超越单响应判别式奖励模型基线。
人类通过内省来评估自身理解,这种评估依赖于外部观察者无法触及的私有内部状态。我们探究大型语言模型是否拥有类似的关于答案正确性的特权知识——即无法通过外部观察获取的信息。我们在模型自身隐藏状态和外部模型的问题表征上训练正确性分类器,检验自我表征是否能带来性能优势。标准评估显示二者无显著差异:自我探测与同行模型探测表现相当。我们推测这是由于模型间对答案正确性的高度一致性所致。为分离真正的特权知识,我们在存在预测冲突的分歧子集上进行评估。结果发现领域特异性特权知识:在事实性知识任务中,自我表征持续优于同行表征,但在数学推理中未显现优势。我们进一步定位这种领域不对称性在模型各层的分布,发现事实性优势从早中期层开始逐步显现,这与模型特异性记忆检索机制相符,而数学推理在任何深度均未呈现稳定优势。
视觉语言模型(VLMs)在多模态推理基准测试中表现卓越,但这些评估通常不需要对图像进行详尽解读,因此可能掩盖模型在准确捕捉所有视觉细节方面的缺陷。我们推出Grid2Matrix(G2M)这一受控基准测试:模型需根据显示的彩色网格和颜色-数字映射关系输出对应矩阵。通过调整网格尺寸与颜色数量,G2M能以最小化语义干扰的方式实现视觉复杂度的可控提升。研究发现,VLMs在零样本端到端评估中会出现早期性能断崖式下跌——在极小网格上即告失败,而非随任务密度增加逐渐退化。我们对两个代表性VLM家族的视觉编码器进行探测,发现其保留的网格信息远超端到端输出结果。这表明失败原因不能仅归咎于视觉编码环节,还反映了视觉特征可恢复信息与最终语言表达之间的断层。我们将此现象命名为“数字辨识障碍”。进一步分析表明,这些错误具有高度结构性,且与网格单元和视觉分块边界的重叠情况密切相关。研究还发现,模型缩放和多模态对齐等常见策略均无法完全消除此类故障。我们期待G2M成为重要测试平台,既可探究VLMs丢失视觉细节的环节与机制,也能评估表格、图表、表单和图形界面等对细微视觉信息敏感的任务表现。
我们通过内部推理轨迹(称为思维流)来评估视觉语言模型在视频场景理解中的表现。基于从100小时视频中提取的场景,采用谷歌Gemini 2.5 Flash与Flash Lite的四种配置方案,我们探究三个核心问题:更多思考是否带来更好输出?性能增益何时趋于饱和?模型实际关注哪些内容?我们引入三项评估指标:内容充实度衡量思维流中有用场景内容与元评论的比例;思维-最终覆盖度评估思维流向最终输出的转化保真度;主导实体分析识别模型关注的主体、动作及场景要素。采用GPT-5作为独立评判器,研究发现:思考深度带来的质量增益快速进入平台期,主要提升集中于前几百个标记;Flash Lite在质量与标记消耗间达到最佳平衡。过紧的推理预算会导致模型在最终输出中添加未经推理的内容,形成压缩阶段幻觉。尽管属于不同层级,Flash与Flash Lite产生相似思维流但风格迥异:Flash侧重阐述推理过程,而Lite专注于场景描述。
推测性解码通过使用轻量级草稿模型预测多个未来词元,再由目标模型并行验证,从而加速自回归语言模型推理。DFlash研究表明,基于块扩散的草稿模型可在单次前向传播中生成完整草稿块,实现了最先进的推测性解码性能,超越了EAGLE-3等强自回归草稿模型。然而经典DFlash每轮仅验证单条草稿轨迹,可能限制其接受长度。我们提出DDTree(扩散草稿树)方法,可直接基于块扩散草稿模型的逐位置分布构建草稿树。在固定节点预算下,DDTree采用简单的最佳优先堆算法,根据草稿模型输出定义的代理指标选择最可能匹配目标模型的续写路径。通过仅关注祖先节点的注意力掩码,生成的草稿树可在单次目标模型前向传播中高效完成验证。由于DDTree基于推测性解码领域的领先草稿模型DFlash构建,这些性能提升使DDTree跻身推测性解码的前沿方法之列。
随着视觉语言模型的兴起,光学字符识别(OCR)技术发展迅猛,但其评估仍集中于少数高资源和中资源文字体系。我们推出GlotOCR Bench——一个涵盖100多种Unicode文字体系的综合性OCR泛化能力评估基准。该基准包含由真实多语言文本生成的清晰版与退化版图像变体,采用Google Fonts字库中的字体,通过HarfBuzz进行字形规划,并利用FreeType支持从左到右和从右到左文字体系的栅格化渲染。所有文字体系的渲染样本均经过人工核验以确保正确显示。 我们对多款开源权重及专有视觉语言模型进行评估,发现大多数模型仅在不到十种文字体系上表现良好,即使最先进的顶尖模型也难以泛化至三十种以上文字体系。模型表现与文字体系的预训练覆盖度高度相关,表明当前OCR系统对语言模型预训练的依赖程度不亚于视觉识别能力。当面对陌生文字时,模型要么生成随机乱码,要么从其已掌握的相似文字体系中幻觉出字符。 我们公开基准数据集与复现流程以促进可重复研究。流程代码:https://github.com/cisnlp/glotocr-bench,基准数据集:https://hf.co/datasets/cis-lmu/glotocr-bench。
传统的固定深度架构通常通过增加参数量来提升训练浮点运算量(FLOPs)的质量,但这会以增加内存占用或数据量为代价。循环架构是一种潜在替代方案,它通过将激活值在层块中循环传递来实现FLOPs的提升。尽管前景可观,现有循环架构的训练方案存在不稳定性,常出现残差爆炸和损失值尖峰问题。我们通过将循环操作重构为残差流上的非线性时变动力系统来解决这些挑战。基于该系统的线性近似分析,我们发现现有循环架构的不稳定性源于其注入参数过大的谱范数。针对此问题,我们提出Parcae——一种新型稳定循环架构,通过对负对角参数化进行离散化来约束注入参数的谱范数。实验表明,Parcae在验证集困惑度上较现有大规模循环模型降低达6.3%。利用这一稳定架构,我们探究了循环机制作为提升FLOPs以改善模型质量的扩展特性:在训练阶段,我们推导出在固定参数量下可预测的FLOPs缩放幂律规律,表明在固定FLOPs预算下应同步增加循环次数与数据量;在推理阶段,Parcae可通过循环实现可预测的饱和指数衰减式计算扩展。当参数量扩展至13亿时,在固定参数和数据预算下,Parcae较强大的Transformer基线在CORE和Core-Extended指标上分别提升2.99和1.18个点,达到了两倍规模Transformer模型87.5%的相对质量。
大型语言模型(LLMs)在高资源语言中通常表现出较强的安全性能,但在低资源语言查询时却存在严重漏洞。我们将此差异归因于语言无关的语义理解能力与偏向高资源语言的以语言为主导的安全对齐之间的不匹配。基于这一假设,我们通过实验识别出LLMs中的语义瓶颈——即模型表征的几何形态主要由共享语义内容而非语言身份决定的中间层。基于此发现,我们提出语言无关语义对齐(LASA)方法,将安全对齐直接锚定在语义瓶颈层。实验表明,LASA显著提升了所有语言的安全性:在LLaMA-3.1-8B-Instruct模型上,平均攻击成功率(ASR)从24.7%降至2.8%,而在Qwen2.5和Qwen3 Instruct系列模型(7B-32B)中始终保持在3-4%左右。我们的分析与方法共同为LLM安全提供了表征层面的新视角,表明安全对齐需要将安全理解锚定于模型的语言无关语义空间,而非表层文本。
基于规范驱动的AI编程代理开发(SDD)虽提供了结构化工作流,但在大型演进式代码库中,代理常处于"上下文盲区",导致API幻觉与架构违规。我们提出规范工具包代理——一种配备项目经理与开发者角色的多代理SDD流水线,通过阶段级上下文锚定钩子增强系统。只读探查钩子将每个阶段(规范制定、计划、任务分解、实现)锚定于代码库证据,而验证钩子则对环境中的中间产物进行校验。我们在五个代码库中对32项特性进行128轮实验评估:上下文锚定钩子使LLM评委综合打分(1-5分制)提升0.15分(相当于总分提升3.0%;威尔科克森符号秩检验p<0.05),同时保持99.7%-100%的代码库级别测试兼容性。在SWE-bench Lite基准测试中,增强型钩子将基线性能提升1.7%,达到58.2%的Pass@1通过率。
视觉分词器将高维原始像素映射为压缩表示以供下游建模。除压缩功能外,分词器还决定了信息的保留方式与组织结构。视频分词的事实标准方法是将视频表示为时空三维令牌网格,每个令牌捕获原始信号中对应的局部信息。这要求下游模型(如文生视频模型)必须学习"逐像素"预测所有低阶细节,而忽略视频固有复杂度,导致学习复杂度居高不下。 我们提出VideoFlexTok,通过粗细粒度结合的变长令牌序列表示视频——初始令牌(涌现式)捕获抽象信息(如语义与运动特征),后续令牌补充细粒度细节。生成式流解码器支持从任意数量令牌实现逼真视频重建。这种表示结构允许根据下游需求调整令牌数量,并在同等预算下编码比基线更长的视频。 我们在类别生成和文生视频任务上评估VideoFlexTok,结果表明相较于三维网格令牌,它能实现更高效的训练:仅用五分之一参数量(11亿vs52亿)即可达到相当生成质量(gFVD与ViCLIP评分)。最后通过训练文生视频模型演示其长视频生成能力:仅用672个令牌处理10秒81帧视频,令牌数量比同类三维网格分词器减少8倍,且无需承担过高计算成本。
本文研究触觉定位问题,其目标在于识别与触觉输入具有相同材质属性的图像区域。现有视觉-触觉方法依赖全局对齐,因而难以捕捉该任务所需的细粒度局部对应关系。现有数据集主要包含特写镜头且多样性不足,进一步加剧了该挑战。我们提出一种通过密集跨模态特征交互学习局部视觉-触觉对齐的模型,可生成用于触觉条件材质分割的触觉显著性图。为克服数据集限制,我们引入:(1)拓展视觉多样性的真实场景多材质图像;(2)材质多样性配对策略,将每个触觉样本与视觉差异显著但触感一致的图像对齐,从而提升上下文定位能力及对弱信号的鲁棒性。我们还构建了两个新的触觉材质分割数据集用于定量评估。在新旧基准测试上的实验表明,本方法在触觉定位任务上显著优于现有视觉-触觉方法。
人形机器人有望实现通用型辅助功能,但在现实世界中的移动操作仍面临挑战,因其需要在频繁接触变化中保持全身稳定性、具备灵巧手部能力及接触感知能力。本研究聚焦于接触密集型的灵巧人形移动操作。我们首先开发了基于强化学习的全身控制器,确保复杂操作过程中下肢与躯干的稳定执行。在此基础上构建了全身数据采集系统,结合虚拟现实遥操作与人形运动映射技术,实现现实世界示范数据的高效采集。进而提出触觉梦境人形变换器(HTD)——一种多模态编码器-解码器变换器模型,将触觉作为核心模态与多视角视觉、本体感知共同建模。该策略通过行为克隆与触觉梦境增强进行单阶段训练:除预测动作片段外,策略还同步预测未来手部关节力与触觉潜在表征,促使共享变换器主干学习适用于灵巧交互的接触感知表征。在插入T型件、书籍整理、毛巾折叠、猫砂铲取、茶水服务五项接触密集型任务中,HTD相较基线模型实现90.9%的平均成功率相对提升。消融实验进一步表明,潜在空间触觉预测比原始触觉预测更具效能,带来30%的相对成功率增益。这些成果证明,结合稳健的全身执行系统、可扩展的人形数据采集及以触觉为核心的预测性学习,能够实现现实世界中多功能、高灵巧度的人形机器人操作。项目页面:humanoid-touch-dream.github.io。
《精灵宝可梦:红》作为一款长周期日式角色扮演游戏,其奖励机制稀疏、环境信息部分可观测,加之独特的操控机制,使其成为强化学习领域极具挑战性的基准测试平台。尽管近期研究表明,通过精细设计的奖励函数与观测工程,PPO智能体能够攻克前两个道馆,但实际训练仍存在脆弱性——智能体常陷入动作循环、菜单滥用或无意义游荡等异常行为。本文提出PokeRL模块化系统,该系统通过深度强化学习训练智能体完成《精灵宝可梦:红》早期任务,包括离开玩家房屋、探索真新镇抵达草丛区域以及赢得首场宿敌对战。我们的核心创新在于:基于PyBoy模拟器构建具有地图掩码功能的循环感知环境封装器、多层抗循环与防滥用机制,以及密集分层奖励设计方案。我们认为,像PokeRL这样能显式建模循环与滥用等失败模式的实用系统,是实现从玩具基准测试到完整宝可梦联盟冠军智能体的必要中间阶段。代码已开源:https://github.com/reddheeraj/PokemonRL
医学图像超分辨率的潜在扩散模型普遍沿用了为自然图像设计的变分自编码器。我们通过实验证明,制约重建质量的关键因素并非扩散架构本身,而是这一默认选择。在控制其他流程组件不变的实验中,将通用Stable Diffusion VAE替换为MedVAE(基于160万张医学图像预训练的专业自编码器)后,膝关节MRI、脑部MRI和胸部X线图像(n=1,820)的PSNR指标提升2.91-3.29 dB(Cohen's d=1.37-1.86,所有p<10^{-20},Wil克斯康符号秩检验)。小波分解表明该优势主要集中在编码解剖相关精细结构的最高空间频带。在不同推理调度、预测目标和生成架构上的消融实验证实,该性能差距稳定在±0.15 dB范围内,而各方法的幻象生成率保持相当(所有数据集的Cohen's h<0.02),表明重建保真度与生成幻象受控于相互独立的流程组件。这些结果提供了实用筛选标准:无需扩散训练即可测量的自编码器重建质量可预测下游超分辨率性能(R²=0.67),提示应优先进行专业VAE筛选而非扩散架构搜索。代码与训练模型权重已开源:https://github.com/sebasmos/latent-sr。
大型语言模型正日益作为智能体应用于社会、经济及政策模拟中。一个普遍假设认为,增强推理能力应能提高模拟的真实性。我们指出,当模拟目标并非解决战略问题而是采样合理的有限理性行为时,这一假设可能失效。在此类情境下,增强推理的模型可能成为更优的求解器却成为更差的模拟器:它们可能过度优化策略主导行为,瓦解以妥协为导向的终局行为,有时甚至呈现"无保真度的多样性"模式——即局部行为差异得以保留却缺乏结果层面的真实性。我们在三个改编自早期模拟研究的多智能体协商环境中验证这种求解器-采样器错配现象:模糊权限分散的贸易限额场景、模糊统一对立的贸易限额场景,以及应急电力管理中新领域的电网限电案例。我们比较了无反思、有限反思和原生推理三种条件,涵盖两大主流模型系列,并将相同实验方案扩展至OpenAI的GPT-4.1与GPT-5.2直接测试。所有三项实验中,有限反思条件产生的行为轨迹在多样性和妥协导向性上显著优于无反思与原生推理。在OpenAI扩展实验中,GPT-5.2原生推理在三项实验的45次运行中全部以权威决策告终,而GPT-5.2有限反思则在每个环境中均重现了妥协结果。本文贡献并非全盘否定推理能力的作用,而是提出方法论警示:模型能力与模拟真实性属于不同目标,行为模拟应视模型为采样器而非单纯求解器。
大型视觉语言模型(VLM)往往依赖熟悉的语义先验,但现有评估方法未能清晰区分感知失败与规则映射失败。我们将这种行为定义为语义固化:即使提示指定了另一种同样有效的映射规则,模型仍会保持默认解释。为分离该效应,我们提出VLM-Fix基准测试框架,通过在四种抽象策略游戏中,对相同终局棋盘状态分别采用标准与逆向规则进行配对评估。针对14个开源与闭源VLM的测试表明,模型在标准规则下的准确率持续占优,揭示出显著的语义固化差距。提示干预实验验证了该机制:使用中性代称提示能大幅缩小逆向规则差距,而语义负载代称则会重新扩大差距。后训练过程呈现强规则对齐特性:单一规则训练可提升同规则迁移性能但损害反向规则迁移,联合规则训练则能增强泛化迁移能力。为验证合成游戏之外的泛化性,我们在VLMBias数据集上实施类似去熟悉化干预,观察到相同的定性规律。最后,通过后期层激活导向可部分恢复性能退化,表明语义固化错误至少能通过后期表征进行修正。项目页面、代码及数据集详见https://maveryn.github.io/vlm-fix/。
空间能力是指在环境中保持一致的内部表征,并利用该表征推断离散结构、在约束条件下规划行动的特质。现有针对大模型的空间评估多局限于通过三维变换或视觉问答来探测孤立要素。我们提出空间能力基准测试(SCBench),涵盖三个层级化的能力维度,其任务需通过确定性检查器或基于模拟器的评估器验证可执行输出。在SCBench测试中,三个前沿模型随着能力层级的提升呈现出单调递减的准确率。扫掠输出标记上限实验表明,准确率提升集中在低标记预算区间且快速饱和,而失败案例主要表现为符合局部几何逻辑却违反全局约束的情形。我们同步发布了任务生成器、验证器及可视化工具集。
近期,大型音频语言模型(ALM)在整体音频理解方面展现出卓越能力,但在时序定位任务中仍存在不足——即难以精准确定长音频中事件发生的具体时间点。这一局限源于两个因素:训练数据主要采用缺乏精确时间戳的片段级监督,且现有基准测试未能模拟短事件被密集背景音掩盖的真实场景。本文提出SpotSound,一种专用于音频事件定位的音频语言模型。该模型引入了创新的训练目标,专门用于抑制对输入音频中不存在事件的时间戳幻觉。同时,我们推出SpotSound-Bench这一挑战性时序定位基准,其中目标事件仅占每个音频片段约10%的时长,形成严格的"大海捞针"式评估。实验表明,SpotSound在时序定位基准测试中达到最先进水平,同时在下游通用音频语言任务中保持稳健性能。代码、模型及基准测试数据已发布于https://loiesun.github.io/spotsound/
随着大语言模型作为自主智能体被日益广泛应用,理解多智能体环境中策略行为的形成机制已成为重要的对齐挑战。本研究秉持中立实证立场,构建了可直接观测和度量策略行为的受控环境。我们在简化的纽约市模型中搭建了大规模多智能体仿真系统,让基于大语言模型的智能体在相互对立的激励机制下交互:蓝色智能体追求高效抵达目的地,红色智能体则试图通过说服性语言将对方引向广告牌密集的路线以最大化广告收益。身份隐藏机制使得导航行为具有社会性中介特征,迫使智能体不断决策何时信任或欺骗。通过采用卡尼曼-特沃斯基优化算法的迭代仿真流程,我们研究了策略学习过程——在重复交互轮次中持续更新智能体策略。蓝色智能体被优化以减少广告暴露同时保持导航效率,红色智能体则自适应地利用剩余弱点。经过迭代优化,最优蓝色策略将任务成功率从46.0%提升至57.3%,但易受攻击性仍高达70.7%。后期策略在保持路径效率的同时展现出更强的选择性协作能力。然而安全性与辅助性之间的权衡始终存在:更有效抵抗对抗性引导的策略并未同步实现任务完成率最大化。总体而言,我们的结果表明大语言模型智能体能够展现有限度的策略行为(包括选择性信任与欺骗),但仍高度易受对抗性 persuasion 影响。
实时自由视点渲染需要兼顾多相机冗余性与交互应用的延迟约束。为解决这一难题,我们结合轻量级几何与学习技术,提出了3DTV——一种用于实时稀疏视角插值的前馈网络。基于Delaunay的三元组选择机制确保每个目标视角具备充分的角度覆盖。在此基础上,我们引入位姿感知深度模块,通过从粗到精的金字塔深度估计实现高效的特征重投影与遮挡感知融合。与需要场景专属优化的方法不同,3DTV无需重新训练即可前馈运行,使其在增强现实/虚拟现实、远程呈现和交互应用中具备实用性。在挑战性多视角视频数据集上的实验表明,3DTV持续实现质量与效率的优异平衡,性能超越近年实时新视角基线方法。关键的是,3DTV避免使用显式代理模型,从而在不同场景中实现鲁棒渲染。这使其成为低延迟多视角流传输与交互渲染的实用解决方案。 项目页面:https://stefanmschulz.github.io/3DTV_webpage/