每日精选AI研究论文及翻译
当前大语言模型后训练领域的主流观点认为:监督微调(SFT)导致记忆化,而强化学习(RL)促进泛化。我们针对带有长思维链(CoT)监督信号的推理式SFT重新审视这一论断,发现跨领域泛化并非不存在,而是有条件存在的——其表现同时受优化动态、训练数据和基座模型能力共同塑造。部分已报道的失败案例实为欠优化产物:跨领域性能会先下降后恢复,并随着训练延长持续提升(呈现"先抑后扬"模式),因此短期训练检查点可能低估泛化能力。数据质量与结构均至关重要:低质量解决方案普遍损害泛化能力,而经过验证的长CoT轨迹能带来持续的跨领域增益。模型能力具有决定性作用:强大模型即使从简单的算术游戏中也能内化可迁移的流程模式(如回溯策略),而较弱模型仅模仿表面化的冗长表达。然而这种泛化具有不对称性:推理能力提升的同时安全性会下降,从而将问题从"推理式SFT是否泛化"重构为"在何种条件下、以何种代价实现泛化"。
诸如OpenClaw之类的大型语言模型(LLM)智能体依赖可复用技能执行复杂任务,但这些技能在部署后基本保持静态。这导致相似的工作流程、工具使用模式和故障模式在不同用户间被反复重新发现,阻碍了系统通过经验实现自我改进。虽然不同用户的交互行为能提供关于技能何时有效或失效的互补信号,现有系统却缺乏将此类异构经验转化为可靠技能更新的机制。为此,我们提出SkillClaw——一个支持多用户智能体生态系统中集体技能演进的框架,该框架将跨用户、跨时段的交互视为改进技能的核心信号。SkillClaw持续聚合使用过程中产生的行为轨迹,通过自主进化器进行处理:该组件识别重复出现的行为模式,并将其转化为技能集的更新——既包括对现有技能的优化,也涵盖通过新增能力实现的扩展。更新后的技能将保存在共享仓库中并向所有用户同步,使得某一场景下的改进能零成本地实现全系统传播。通过将多用户经验融入持续技能更新,SkillClaw实现了跨用户知识传递和累积性能力提升。在WildClawBench上的实验表明,即使仅基于有限的交互与反馈,该框架也能显著提升Qwen3-Max在真实智能体场景中的性能表现。
AI代理或许能自动处理收件箱,但能否自动化生活中的其他日常事务?日常在线任务为评估下一代AI代理提供了现实且尚未解决的测试平台。为此,我们推出ClawBench评估框架,包含153个人们在生活工作中需要定期完成的简单任务,横跨15个类别的144个实时平台,涵盖完成购物、预约服务到提交求职申请等场景。这些任务要求的能力远超现有基准测试:需要从用户提供的文档中获取相关信息、在多样化平台上完成多步骤流程操作,以及正确填写大量详细表格等重度书写任务。与在静态页面离线沙盒中评估代理的现有基准不同,ClawBench在真实网站环境中运行,完整保留了现实网络交互的复杂性、动态性和挑战性。通过轻量级拦截层仅捕获并阻断最终提交请求,确保评估过程安全无实际副作用。我们对7个前沿模型的评估表明,无论是专有模型还是开源模型,目前仅能完成其中少量任务。例如Claude Sonnet 4.6的成功率仅为33.3%。在ClawBench上的进展将推动AI代理向可靠通用助手的目标迈进。
我们推出HY-Embodied-0.5系列基础模型,该系列专为现实世界具身智能体设计。为弥合通用视觉语言模型与具身智能体需求之间的鸿沟,我们开发了这些模型以增强具身智能所需的核心能力:时空视觉感知能力,以及面向预测、交互与规划的先进具身推理能力。HY-Embodied-0.5系列包含两个主要变体:面向边缘部署的2B激活参数高效模型,以及针对复杂推理任务的32B激活参数强大模型。 为支撑具身任务所需的细粒度视觉感知,我们采用混合专家架构实现模态专属计算。通过引入潜在标记,该设计有效增强了模型的感知表征能力。为提升推理能力,我们提出迭代式自我进化的后训练范式。此外,我们采用同策略蒸馏技术将大模型的先进能力迁移至小模型变体,从而最大化紧凑模型的性能潜力。 在涵盖视觉感知、空间推理与具身理解的22个基准测试中,广泛评估验证了我们方法的有效性。我们的2B模型在16项基准上超越同等规模的先进模型,而32B变体则达到与Gemini 3.0 Pro等前沿模型相媲美的性能。在下游机器人控制实验中,我们依托强大的视觉语言模型基础训练出高效的视觉-语言-动作模型,在真实物理评估中取得卓越成果。代码与模型已开源:https://github.com/Tencent-Hunyuan/HY-Embodied。
文本到视频扩散模型实现了开放式视频生成,但往往难以准确生成提示词中指定数量的物体。我们提出NUMINA训练框架,这是一种无需训练的"识别-引导"方法,可有效提升数值对齐能力。该框架通过筛选具有判别力的自注意力与交叉注意力头来识别提示词与布局的不一致性,从而推导出可量化的潜在布局。随后对布局进行保守优化,并通过调节交叉注意力来引导重新生成。在全新构建的CountBench测试集上,NUMINA使Wan2.1-1.3B模型的计数准确率最高提升7.4%,在50亿和140亿参数模型上分别提升4.9%和5.5%。此外,在保持时间一致性的同时提升了CLIP对齐度。这些结果表明,结构化引导与种子搜索、提示词增强形成互补,为实现精确计数的文本到视频生成提供了可行路径。代码已开源:https://github.com/H-EmbodVis/NUMINA。
本文提出MegaStyle——一种新颖且可扩展的数据构建流程,能够创建内部风格一致、风格间多样化且高质量的风格数据集。我们通过利用当前大型生成模型具备的文本到图像风格映射一致性能力实现这一目标,该模型可根据给定风格描述生成相同风格的图像。基于此,我们构建了包含17万风格提示词和40万内容提示词的多样化平衡提示库,并通过内容-风格提示词组合生成了大规模风格数据集MegaStyle-140万。基于该数据集,我们提出风格监督对比学习来微调风格编码器MegaStyle-Encoder,以提取具有表现力的风格特异性表征,同时训练了基于FLUX的风格迁移模型MegaStyle-FLUX。大量实验证明了保持风格内一致性、风格间多样性和高质量数据对风格数据集的重要性,以及所提MegaStyle-140万数据集的有效性。经MegaStyle-140万训练后,MegaStyle-Encoder和MegaStyle-FLUX可提供可靠的风格相似度度量与泛化性强的风格迁移效果,为风格迁移领域作出重要贡献。更多结果详见项目网站https://jeoyal.github.io/MegaStyle/。
表演,即通过视觉、语音和时间行为外化意图、情感与个性,是赋予角色生命力的核心。从视频中学习此类表演,是传统3D制作流程的一种前景广阔的替代方案。然而现有视频模型难以同时实现高表现力、实时推理和长时身份稳定性,这一矛盾我们称之为"表演三难困境"。对话是最具综合性的表演场景,角色需在持续维持身份特征的同时,完成说话、倾听、反应和情绪表达等复合行为。为此,我们推出LPM 1.0(大型表演模型),专注于单人多模态全双工会话表演。具体而言,我们通过严格筛选、听说音视频配对、表演理解及身份感知多参考提取构建了以人为核心的多模态数据集;训练了170亿参数的扩散Transformer模型(基础LPM),通过多模态条件控制实现高度可控且身份一致的表演;并将其蒸馏为因果流式生成器(在线LPM)以支持低延迟、无限时长的交互。推理时,给定包含身份感知参考的角色图像,LPM 1.0能以实时速度生成听用户音频的倾听视频和基于合成音频的说话视频,并通过文本提示实现动作控制,同时保持身份稳定与无限时长生成。因此LPM 1.0可作为对话智能体、直播角色和游戏NPC的视觉引擎。为系统评估该设定,我们提出首个交互式角色表演基准LPM-Bench。LPM 1.0在所有评估维度均达到最先进水平,并始终保持实时推理能力。
群体相对策略优化(GRPO)已成为推动多模态大语言模型发展的核心强化学习目标。然而,将这一成功扩展至开源多模态通用模型仍面临两大关键挑战:不同视觉任务间奖励拓扑结构的极端差异性,以及细粒度感知与多步推理能力的内在平衡难题。为此,我们提出高斯GRPO(G²RPO)——一种通过非线性分布匹配替代标准线性缩放的新型RL训练目标。该方法通过数学约束强制所有任务的优势分布严格收敛至标准正态分布N(0,1),从理论上实现了任务间梯度均衡性,增强了对重尾异常值的鲁棒性,并提供正负奖励的对称更新机制。 基于G²RPO提升的训练稳定性,我们引入两种任务级塑形机制以平衡感知与推理:首先,响应长度塑形动态激发复杂查询的延伸推理链,同时强制简单查询直接输出以强化视觉定位;其次,熵塑形严格约束模型探索空间,有效防止熵崩溃与熵爆炸。通过集成这些方法,我们推出OpenVLThinkerV2——一个高鲁棒性的通用多模态模型。在18个多样化基准测试中的广泛评估表明,其性能显著优于主流开源模型及领先的专有前沿模型。
我们提出DMax——一种高效扩散语言模型(dLLMs)的新范式。该方法通过缓解并行解码中的误差累积问题,在保持生成质量的同时实现了更激进的解码并行度。与传统基于二值掩码到令牌转换的掩码dLLMs不同,DMax将解码过程重新定义为从掩码嵌入到令牌嵌入的渐进式自优化过程。我们的核心创新是策略一致性均匀训练,这种新型训练策略高效统一了掩码与非均匀dLLMs,使模型具备从掩码输入及自身错误预测中恢复正确令牌的能力。在此基础上,我们进一步提出软并行解码技术,将每个中间解码状态表示为预测令牌嵌入与掩码嵌入的插值,从而在嵌入空间实现迭代式自修正。多基准测试表明,DMax方法成效显著:相较于原始LLaDA-2.0-mini模型,在GSM8K数据集上TPF从2.04提升至5.47且准确率保持稳定;在MBPP数据集上TPF从2.71增至5.86的同时维持相当性能;在双H200 GPU环境下,批大小为1时平均每秒处理1,338个令牌。代码已开源:https://github.com/czg1225/DMax
大型语言模型(LLM)智能体的构建重点正逐渐从调整模型权重转向重组其运行时环境。早期系统期望模型内部实现的能力,如今被外化为记忆存储、可复用技能、交互协议以及确保这些模块可靠运行的支撑框架。本文以"外部化"为视角审视这一转变。借鉴认知人工物的概念,我们认为智能体基础设施的重要性不仅在于添加辅助组件,更在于其将高难度认知负荷转化为模型可更可靠解决的形式。在此视角下,记忆实现了状态跨时间的外部化,技能实现了程序性知识的外部化,协议实现了交互结构的外部化,而框架工程则作为协调这些要素实现受控执行的统一层。我们追溯了从权重到上下文再到支撑框架的历史演进,将记忆、技能和协议分析为三种相互关联的外部化形式,并考察它们在智能体系统内部的交互机制。进一步探讨参数化能力与外部化能力之间的权衡,指出自我进化框架和共享智能体基础设施等新兴方向,并评估在评估体系、治理机制以及模型与外部基础设施长期协同演化等方面的开放挑战。最终提出一个系统级框架,用以阐释为何实用智能体的进展日益依赖于更强大的模型,更取决于更优质的外部认知基础设施。
能够推断用户偏好并校准主动服务能力的个性化移动智能体,作为日常数字助手具有巨大潜力,然而现有基准测试未能准确衡量其所需能力。既往研究或基于静态历史评估偏好恢复,或在固定情境下测试意图预测,两者均未检验智能体能否通过交互获取缺失偏好,也未考察其在实时图形界面环境中决定何时介入、征询许可或保持沉默的能力。我们推出KnowU-Bench——基于可复现Android模拟环境构建的个性化移动智能体在线基准,涵盖42项通用GUI任务、86项个性化任务及64项主动服务任务。与将用户偏好视为静态背景的既往研究不同,KnowU-Bench对智能体隐藏用户画像,仅开放行为日志,迫使系统进行真实的偏好推断而非背景查询。为支持多轮偏好获取,该平台基于结构化画像实例化LLM驱动的用户模拟器,实现逼真的澄清对话与主动许可协商。除个性化维度外,KnowU-Bench还通过结合规则验证与LLM评判的混合评估协议,对包含GUI实体操作、许可协商及遭拒后行为约束的完整主动决策链进行综合评价。实验结果显示性能断崖式下降:即便如Claude Sonnet 4.6等前沿模型,在需要推断用户偏好或校准干预时机的模糊指令下,原本擅长显式任务执行的智能体成功率骤降至50%以下。核心瓶颈并非GUI导航能力,而是偏好获取与干预校准,这揭示了熟练的界面操作与可信赖的个性化辅助之间存在根本性差距。
智能体多模态模型的出现使系统能够主动与外部环境交互。然而当前智能体存在严重的元认知缺陷:它们难以在利用内部知识与调用外部工具之间做出权衡。这导致其频繁陷入盲目调用工具的误区,即便问题可直接通过原始视觉上下文解决,仍会机械性地执行工具调用。这种病态行为不仅造成严重的延迟瓶颈,还会引入干扰推理过程的额外噪声。现有强化学习协议试图通过惩罚工具使用的标量奖励来缓解此问题,但这种耦合式设计造成了不可调和的优化困境:严厉的惩罚会抑制必要的工具使用,而温和的惩罚在优势归一化过程中会被准确率奖励的方差完全淹没,无法遏制工具滥用。为突破此瓶颈,我们提出HDPO框架,将工具效率从竞争性标量目标重构为严格的条件性目标。通过摒弃奖励标量化,HDPO维持两个正交的优化通道:致力于最大化任务准确率的精度通道,以及通过条件优势估计在准确轨迹中强制实现执行效率的经济性通道。这种解耦架构自然形成认知课程——强制智能体先掌握任务解决能力,再优化其自主决策能力。大量实验表明,我们最终训练的Metis模型在将工具调用量降低数个数量级的同时,还提升了推理准确率。
网络智能体——这种代表用户在互联网上自主导航并执行任务的系统——有望彻底改变人类与数字世界的交互方式。然而当前最先进的网络智能体均基于训练数据和配方未公开的专有模型,这限制了科学认知、结果复现和社区驱动的技术发展。 我们认为开放网络生态的智能体应当以开放方式构建。为此,我们推出:(1) MolmoWebMix——融合浏览器任务演示与网页图形界面感知数据的大规模混合数据集;(2) MolmoWeb系列——完全开源的 multimodal 网络智能体家族。具体而言,MolmoWebMix 整合了来自多个互补生成管线的10万余条合成任务轨迹、3万余条人工演示数据、原子级网页技能轨迹以及包含指代表达定位和屏幕截图问答的图形界面感知数据。MolmoWeb智能体采用指令条件化的视觉-语言动作策略:给定任务指令和网页截图,即可预测下一步浏览器操作,无需访问HTML、无障碍功能树或专用API。 该系列提供40亿和80亿参数版本,在WebVoyager、Online-Mind2Web和DeepShop等浏览器使用基准测试中,其表现均优于Fara-7B、UI-Tars-1.5-7B和Holo1-7B等同等规模的开源模型,达到最先进水平。MolmoWeb-8B甚至超越了基于GPT-4o等更大规模闭源前沿模型构建的标记集(SoM)智能体。通过采用并行推演与N选优的测试时扩展策略,我们进一步实现了性能的持续提升:在WebVoyager和Online-Mind2Web上的pass@4指标分别达到94.7%和60.5%(对比pass@1指标的78.2%和35.3%)。我们将发布模型检查点、训练数据、代码和统一评估工具链,以促进结果复现并加速网络智能体的开放研究。
空间理解是实现人类水平智能的基石。然而,当前研究主要聚焦于特定领域的数据生产,存在一个关键空白:缺乏能够充分释放高质量空间数据潜力的开源引擎。为填补这一空白,我们阐释了稳健数据生成系统的设计原则,推出开源数据引擎OpenSpatial——该引擎具备高质量、强扩展性、广任务多样性及优化效率四大特性。OpenSpatial采用3D边界框作为基础单元,构建了覆盖五大核心任务的完整数据层级体系:空间度量、空间关系、相机感知、多视角一致性和场景感知推理。基于这一可扩展基础设施,我们构建了包含300万高保真样本的大规模数据集OpenSpatial-3M。大量实验表明,基于本数据集训练的通用模型在各类空间推理基准测试中均达到最先进性能。值得注意的是,最佳模型相对实现了19%的平均性能提升。此外,我们系统分析了数据属性如何影响空间感知能力。通过开源引擎与300万规模数据集,我们为加速空间智能的未来研究奠定了坚实基础。
为将强化学习后训练范式扩展至全模态模型,以同步增强视频-音频理解与协同推理能力,我们提出OmniJigsaw——一种基于时序重排代理任务的通用自监督框架。该范式以打乱的音视频片段时序重建为核心,通过三重策略系统整合视觉与听觉信号以驱动跨模态融合:联合模态整合、样本级模态选择与片段级模态掩码。鉴于代理任务效能与谜题质量本质相关,我们设计了两阶段由粗到精的数据过滤流程,助力OmniJigsaw高效适配海量无标注全模态数据。研究发现联合模态整合中存在“双模态捷径现象”,并证明细粒度片段级模态掩码在超越样本级模态选择的同时能有效缓解该问题。在15个基准测试上的广泛实验表明,该方法在视频、音频及协同推理任务中均取得显著提升,验证了OmniJigsaw作为可扩展自监督全模态学习范式的有效性。
技能运用已成为现代智能体系统的核心组成部分,能显著提升智能体完成复杂任务的能力。在现实场景中,智能体需要监控并交互大量个人应用、网页浏览器及其他环境接口,技能库可扩展至数千个可复用技能。然而技能库规模扩大带来两大挑战:首先,全量加载技能会占满上下文窗口,导致标记成本增加、幻觉率上升及响应延迟。 本文提出技能图谱(GoS)——面向大型技能库的推理时结构检索层。GoS通过离线构建技能包的可执行图谱,在推理时采用混合语义-词法播种、反向加权个性化PageRank算法及上下文预算化注入技术,检索具有依赖感知的边界技能束。在SkillsBench和ALFWorld测试中,GoS相较原始全量技能加载基线平均奖励提升43.6%,同时减少37.8%的输入标记,并在Claude Sonnet、GPT-5.2 Codex和MiniMax三大模型家族中均展现泛化能力。针对200至2000个技能的扩展消融实验进一步表明,GoS在平衡奖励值、标记效率与运行时间方面持续优于原始技能加载与简单向量检索方法。
给定人物与服装图像,虚拟试穿(VTO)技术旨在合成人物穿着该服装的真实图像,同时保持其原始姿态与身份特征。尽管现有VTO方法在服装外观可视化方面表现卓越,但它们普遍忽略试穿体验的关键维度:服装合身度的准确性——例如展现特大号衬衫穿在特小号身材上的效果。核心障碍在于缺乏提供精确服装与人体尺寸的数据集,尤其针对服装严重偏大或偏小的"不合身"场景。这导致当前VTO方法默认生成合身效果,无视实际尺寸差异。 本文针对这一开放性问题迈出探索第一步。我们提出FIT(包容性合身试穿)数据集——一个包含113万组试穿图像三元组的大规模VTO数据集,附带精确的人体与服装尺寸标注。通过可扩展的合成策略攻克数据收集难题:(1) 利用GarmentCode程序化生成3D服装,经物理模拟悬垂以捕捉真实合身效果;(2) 采用新颖的重纹理框架将合成渲染图转化为逼真图像,同时严格保持几何结构;(3) 在重纹理模型中引入身份保持机制,生成配对人物图像(同一人物穿着不同服装)以供监督训练。最终基于FIT数据集训练具备合身感知能力的基线VTO模型。我们的数据与成果为合身感知虚拟试穿树立了新标杆,并为未来研究提供稳健基准。所有数据与代码将在项目页面开源:https://johannakarras.github.io/FIT。
前沿大语言模型虽能驾驭复杂网站,但其高昂成本与第三方API依赖导致本地部署难以实现。我们提出"智能体即标注者"框架,通过类比人类标注角色(将任务设计师、标注员和监督员替换为模块化LLM组件),构建网络智能体的合成轨迹生成体系。以Gemini 3 Pro作为教师模型,我们在六个网络环境中生成3,000条操作轨迹,并对通过质量筛选的2,322条轨迹采用纯监督学习微调90亿参数学生模型。最终模型在WebArena基准测试中达到41.5%成功率,超越闭源模型Claude 3.5 Sonnet(36.0%)和GPT-4o(31.5%),并将此前最佳开源结果(Go-Browse的21.7%)提升近一倍。该能力可迁移至未训练场景:在训练中从未接触的企业平台WorkArena L1上实现18.2个百分点的提升,并在另外三个基准测试中保持稳定进步。消融实验证实各流程组件均具实质贡献——法官过滤、评估提示和推理轨迹分别带来可量化的性能增益。这些结果表明,仅需单个前沿教师模型的结构化轨迹合成,即可培育出具有竞争力且可本地部署的网络智能体。项目页面:https://agent-as-annotators.github.io
针对长视频适配多模态大语言模型(MLLMs)时,上下文长度限制成为主要瓶颈。密集的视觉流会耗尽令牌预算,加剧"中间信息丢失"现象。现有启发式方法(如稀疏采样或均匀池化)盲目牺牲保真度——既丢弃关键瞬间,又在无关背景上浪费带宽。我们提出Tempo框架,通过查询感知的高效压缩实现长视频下游理解。Tempo采用小型视觉语言模型(SVLM)作为局部时序压缩器,将令牌削减视为早期跨模态蒸馏过程,在单次前向传播中生成紧凑且意图对齐的表征。为在保持因果性的前提下执行严格预算,我们引入自适应令牌分配(ATA)机制。该训练无关的O(1)动态路由器利用SVLM的零样本相关性先验和语义前置特性,为查询关键片段分配密集带宽,同时将冗余内容压缩为最小化时序锚点以维持全局叙事。大量实验表明,我们的6B参数架构在激进动态压缩(0.5-16令牌/帧)下实现最优性能。在超长视频基准LVBench(4101秒)上,Tempo在8K视觉预算限制下获得52.3分,超越GPT-4o和Gemini 1.5 Pro。扩展至2048帧时分数达53.7。关键的是,Tempo将小时级视频压缩至理论极限以下,证明真正的长视频理解依赖于意图驱动的效率,而非贪婪填充上下文窗口。
视觉-语言-动作模型通过大规模预训练推动了机器人操作技术的发展,但在实际部署中仍因部分可观测性和延迟反馈而面临挑战。强化学习通过价值函数评估任务进度并指导策略改进,但现有基于视觉语言模型的价值模型难以捕捉时序动态,影响了长周期任务中的价值估计可靠性。本文提出ViVa——一种视频生成式价值模型,通过改造预训练视频生成器实现价值估计。该模型以当前观测数据和机器人本体感知为输入,联合预测未来本体感知和当前状态的标量价值。通过利用预训练视频生成器的时空先验知识,我们的方法将价值估计建立在预期的具身动态基础上,突破静态快照的局限,实现价值与前瞻能力的本质耦合。将ViVa集成至RECAP系统后,在现实世界的箱子组装任务中实现了显著提升。三项任务的定性分析证实,ViVa能生成更可靠的价值信号,准确反映任务进度。通过利用视频语料库的时空先验知识,ViVa还能泛化至新物体,彰显了视频生成模型在价值估计领域的应用潜力。
可变形物体的机器人操控在具身学习中属于数据密集型领域,其形状、接触状态和拓扑结构的协同演化远超刚体对象的可变性。尽管仿真技术有望缓解真实世界数据采集的成本问题,但主流仿真到现实流水线仍基于刚体抽象模型,导致几何失配、软体动力学脆弱以及难以适应布料交互的运动基元。我们认为仿真技术的缺陷并非源于其合成属性,而是因其缺乏物理根基。为此我们提出SIM1:一种基于物理对齐的真实-仿真-真实数据引擎,将仿真系统锚定在物理世界中。该系统通过有限演示样本将场景数字化为度量一致的双生模型,通过弹性建模校准可变形物体动力学,并利用基于扩散模型的轨迹生成与质量过滤机制扩展行为模式。该流水线能将稀疏观察转化为具有近演示保真度的规模化合成监督信号。实验表明,基于纯合成数据训练的策略在1:15的等效比下达到真实数据基线的同等性能,在现实部署中实现90%的零样本成功率及50%的泛化提升。这些结果验证了物理对齐仿真可作为可变形物体操控的可扩展监督方案,为数据高效策略学习提供了可行路径。
标准注意力机制的二次计算复杂度在长上下文场景下成为大语言模型严重的可扩展性瓶颈。虽然结合全注意力与稀疏注意力的混合机制提供了潜在解决方案,但现有方法通常依赖静态分配比例,难以适应不同任务对信息检索的动态需求。此外,头部级动态稀疏性往往会引发严重的计算负载不均衡与同步长尾问题,阻碍自回归解码过程中的硬件加速。为弥补这一差距,我们提出Flux Attention——一种在层级动态优化注意力计算的上下文感知框架。通过将轻量级层级路由器集成至冻结的预训练大模型中,该方法能根据输入上下文自适应地将各层路由至全注意力或稀疏注意力计算。这种层级路由策略在保证高保真信息检索的同时,实现了连续内存访问,将理论计算量削减转化为实际端到端加速。作为参数高效型方法,本框架仅需在8张A800 GPU上训练12小时。在多个长上下文与数学推理基准测试中的广泛实验表明,相较于基线模型,Flux Attention在性能与推理速度间实现了更优平衡,其预填充阶段和解码阶段分别实现了最高2.8倍和2.0倍的加速效果。
数据库系统内核中集成了日益丰富的原生函数,以支持新应用场景和业务迁移需求。这种增长催生了对数据库原生函数自动合成的迫切需求。尽管基于大语言模型的代码生成技术(如Claude Code)展现出潜力,但其通用性难以满足数据库特定开发需求。由于函数合成本身具有复杂性和易错性——单个函数的实现可能涉及多个功能单元注册、内部引用关联及逻辑正确实现,现有方法常出现逻辑幻觉或关键上下文遗漏。为此,我们提出DBCooker,基于大语言模型的数据库原生函数自动合成系统。该系统包含三大组件:首先,函数特征提取模块聚合多源声明,识别需专项编码的功能单元并追踪跨单元依赖关系;其次,我们设计了三项核心操作应对合成挑战:(1)基于伪代码的编码计划生成器,通过识别可复用函数等关键要素构建结构化实现框架;(2)融合概率先验与组件感知的混合填空模型,将核心逻辑与可复用例程集成;(3)包含语法检查、标准符合性验证及大语言模型引导语义核查的三级渐进验证机制。最后,自适应编排策略通过相似函数的编排历史动态调度这些操作,并与现有工具链协同。实验表明,DBCooker在SQLite、PostgreSQL和DuckDB上平均合成准确率提升34.55%,并能成功合成最新版SQLite(v3.50)中缺失的新函数。
大型语言模型(LLM)的出现为通用用户模拟器的发展指明了方向。然而,现有基准测试仍局限于孤立场景、狭窄动作空间或合成数据,难以捕捉真实人类行为的整体性。为弥补这一缺陷,我们推出首个完全基于真实世界数据构建的用户模拟基准OmniBehavior,将长周期、跨场景、异构行为模式整合至统一框架。基于此基准,我们首次通过实证表明:以往孤立场景数据集存在视野局限,而真实世界决策依赖于长期跨场景的因果链。对前沿LLM的广泛评估显示,当前模型难以准确模拟这些复杂行为,即使扩展上下文窗口性能仍停滞不前。关键的是,通过系统对比模拟与真实行为,我们揭示了根本性的结构偏差:LLM倾向于收敛于"积极平均人"形象,表现出过度活跃、人格同质化及乌托邦偏见,导致个体差异与长尾行为消失。这一发现为未来高保真模拟研究指明了关键方向。
基础模型虽具备强大的感知能力,但常因计算负载过重而难以部署,且适应过程通常需要昂贵的标注成本。我们提出一种半监督知识蒸馏(SSKD)框架,利用有限标注数据和大量无标注数据将预训练视觉基础模型(VFM)压缩为轻量化专家模型,并在像素级标注成本极高的实例分割任务中实现该框架。该框架包含三个阶段:(1)通过自训练与对比校准进行VFM的领域适应;(2)通过统一多目标损失函数实现知识迁移;(3)学生模型精炼以缓解残余伪标签偏差。我们的方法核心在于实例感知的像素级对比损失,该损失融合掩码与分类得分以提取信息丰富的负样本并强化实例间边界。通过在适应和蒸馏阶段保持这种对比信号,我们实现了师生模型嵌入的对齐,并更高效地利用无标注图像。在Cityscapes和ADE20K数据集上,体积缩小约11倍的学生模型相较零样本VFM教师模型的AP指标提升+11.9和+8.6,较适应后的教师模型提升+3.4和+1.5 AP,并在基准测试中超越现有最先进的SSKD方法。
扩散模型在视频生成领域取得了显著进展,但其可控性仍是主要瓶颈。关键场景要素(如布局、光照和摄像机轨迹)往往存在耦合效应或建模薄弱问题,这限制了其在电影制作和虚拟制片等需要精确场景控制的领域的应用。我们提出LiVER——基于扩散模型的场景可控视频生成框架。通过引入新型条件生成机制,将视频合成过程与显式3D场景属性相绑定,并依托带有密集物体布局、光照及摄像机参数标注的大规模数据集实现。我们的方法通过统一3维表征渲染控制信号,实现场景要素的解耦控制。提出轻量化条件调制模块与渐进式训练策略,将控制信号融入基础视频扩散模型,确保稳定收敛与高保真度。该框架支持包括图像/视频到视频合成在内的多种应用场景,且支持底层三维场景的全面编辑。为提升易用性,我们还开发了场景智能体,可自动将高级用户指令转化为所需的三维控制信号。实验表明,LiVER在实现最先进的光感真实度与时序一致性的同时,能够对场景要素进行精确解耦控制,为可控视频生成建立了新标准。
采用可验证奖励强化学习(RLVR)训练的多模态推理模型(MRM)在视觉推理基准测试中展现出更高的准确率。然而我们发现,准确率的提升往往以牺牲推理质量为代价:生成的思维链(CoT)轨迹常与最终答案不一致,且缺乏对视觉证据的充分依据。我们系统性地研究了七个高难度真实世界空间推理基准中的这一现象,发现该问题普遍存在于ViGoRL-Spatial、TreeVGR等当代MRM模型,以及我们使用标准组相对策略优化(GRPO)训练的模型中。我们从两个互补维度界定CoT推理质量:"逻辑一致性"(CoT是否必然推导出最终答案?)和"视觉依据性"(每个推理步骤是否准确描述图像中的物体、属性及空间关系?)。为此,我们提出可信GRPO(FGRPO)——通过拉格朗日对偶上升法将一致性与依据性作为约束条件的GRPO变体。FGRPO将批次级一致性与依据性约束融入组内优势度计算,在优化过程中自适应调整约束条件的相对重要性。基于Qwen2.5-VL-7B和3B骨干网络在七个空间数据集上的实验表明:FGRPO显著提升推理质量,将不一致率从24.5%降至1.7%,视觉依据性得分提升13%。该方法还较基础GRPO提升了最终答案准确率,印证了可信推理可催生更优答案。
我们研究经过后训练获得的模型能力能否在不重新训练的情况下跨模型迁移,重点关注不同规模模型间的能力转移。提出"主密钥假说",认为模型能力对应低维潜空间中的方向向量,这些方向能诱导特定行为,并可通过线性对齐在模型间迁移。基于该假说,我们开发了UNLOCK框架——一种无需训练和标签的解决方案,通过对比具备特定能力与缺失该能力的源模型变体的激活差异提取能力方向,借助低秩线性变换将其与目标模型对齐,并在推理时应用该方向以激发目标行为。在思维链推理和数学推理等任务上的实验表明,该方法能在不同规模模型间实现显著提升:例如将思维链推理能力从Qwen1.5-14B迁移至Qwen1.5-7B时,MATH数据集准确率提升12.1%;将数学推理方向从Qwen3-4B-Base迁移至Qwen3-14B-Base后,AGIEval数学测评准确率从61.1%升至71.3%,超越14B后训练模型67.8%的表现。分析表明,迁移成功取决于预训练阶段习得的基础能力,而我们的干预通过强化成功推理路径的输出概率分布,放大了模型的潜在能力。
尽管视觉语言模型(VLMs)在静态视觉理解方面取得了显著进展,但其在复杂3D具身环境中的部署仍存在严重局限。现有基准测试存在四个关键缺陷:(1)被动感知任务规避了交互动态;(2)简化的2D环境无法评估深度感知能力;(3)特权状态泄露绕过了真实的视觉处理过程;(4)人工评估成本高昂且难以扩展。我们推出PokeGym——一个基于《宝可梦传说:Z-A》视觉复杂3D开放世界角色扮演游戏构建的视觉驱动长时程基准测试。该框架通过代码级隔离设计:智能体仅基于原始RGB观测进行操作,同时由独立评估器通过内存扫描验证任务成功率,确保纯视觉决策与自动化可扩展评估。基准测试包含30项任务(30-220步),涵盖导航、交互及混合场景,并设置三种指令粒度(视觉引导、步骤引导、仅目标指引),以系统解构视觉定位、语义推理与自主探索能力。评估结果揭示了当前VLMs的核心局限:物理死锁恢复能力(而非高层规划)构成主要瓶颈,且死锁状态与任务成功率呈强负相关。更重要的是,我们发现了元认知分化:弱模型主要受困于无意识死锁(陷入困境而不自知),而先进模型则表现为有意识死锁(能识别困境但无法脱困)。这些发现表明亟需将显式空间直觉整合至VLM架构中。代码与基准测试套件将在GitHub平台开源。
近期,基于大规模数据集与强大架构的生成式视频建模技术取得了视觉真实感的显著突破。然而,新近研究表明,单纯扩大数据与模型规模并不能使这些系统理解现实世界动态背后的物理规律。现有方法往往难以捕捉或强化这种物理一致性,导致运动与动态效果失真。本研究旨在探索将潜在物理属性推断直接融入视频生成过程,能否使模型具备生成符合物理规律视频的能力。为此,我们提出Phantom——一种物理增强视频生成模型,可同步建模视觉内容与潜在物理动态。该模型以观测视频帧和推断物理状态为条件,联合预测潜在物理动态并生成未来视频帧。Phantom采用物理感知的视频表征作为底层物理规律的抽象化信息嵌入,无需显式定义复杂的物理动态属性集合,即可实现物理动态与视频内容的协同预测。通过将物理感知视频表征推断直接整合至视频生成流程,Phantom生成的视频序列既保持视觉真实感,又符合物理一致性。在标准视频生成与物理感知基准测试中的定量与定性结果表明,Phantom不仅在物理动态遵循度上超越现有方法,同时保持了具有竞争力的视觉保真度。
零样本异常检测旨在无需任何域内训练图像的情况下,检测并定位图像中的异常区域。尽管现有方法利用视觉语言模型(如CLIP)迁移高层概念知识,但基于纯视觉基础模型(如DINOv2)的方法在性能上始终落后。我们认为这一差距源于两个实际问题:(一)现有辅助异常检测数据集多样性不足;(二)视觉基础模型的适应策略过于浅层。为应对这两大挑战,我们提出AnomalyVFM框架——通过结合稳健的三阶段合成数据集生成方案与参数高效的适应机制,将任何预训练的视觉基础模型转化为强大的零样本异常检测器。该框架利用低秩特征适配器和置信度加权的像素损失,使现代视觉基础模型显著超越当前最优方法。具体而言,以RADIO为骨干网络时,AnomalyVFM在9个多样化数据集上实现了94.1%的平均图像级AUROC,较先前方法提升3.3个百分点。项目页面:https://maticfuc.github.io/anomaly_vfm/
近期研究探索了通过组合预定义模块并使其适配任务特定目标,来优化图像信号处理(ISP)流水线的方法。然而,联合优化模块序列与参数仍具挑战性。现有方法依赖神经架构搜索(NAS)或分步强化学习(RL),但NAS存在训练-推理不匹配问题,而分步RL由于需进行阶段性决策,会导致训练不稳定和计算开销过高。我们提出POS-ISP这一序列级RL框架,将模块化ISP优化建模为全局序列预测问题。该方法通过单次前向传播即可预测完整模块序列及其参数,并利用终端任务奖励优化流水线,无需中间监督和冗余执行。在多下游任务上的实验表明,POS-ISP在提升任务性能的同时降低了计算成本,凸显了序列级优化作为任务感知ISP的稳定高效范式。项目页面详见:https://w1jyun.github.io/POS-ISP
当代文本生成图像(T2I)模型虽能生成高保真度视觉效果,却始终无法响应个体用户的偏好差异。现有奖励模型虽以"平均"人类审美为优化目标,却未能捕捉审美判断固有的主观性。本研究引入名为PAMELA的新型数据集与预测框架,旨在构建个性化图像评估体系。该数据集涵盖由前沿模型(Flux 2与Nano Banana)生成的5000张多元图像,累计收集70,000次评分。每张图像由15位独立用户进行评价,在艺术、设计、时尚及电影摄影等领域形成了丰富的主观偏好分布。基于此数据,我们提出一种个性化奖励模型,该模型同时结合高质量标注数据与现有美学评估子集进行联合训练。实验表明,本模型预测个体偏好的准确度,超越了当前多数前沿方法预测群体偏好的水平。通过该个性化预测器,我们验证了如何利用简易提示词优化方法引导生成结果贴合个体用户偏好。研究结果凸显了数据质量与个性化处理对于应对用户偏好主观性的关键作用。我们公开数据集与模型,以推动个性化T2I对齐与主观视觉质量评估领域的标准化研究。
在异构边缘设备上部署大语言模型需要能协同优化能效、推理质量与可靠性的框架。我们先前提出的QEIL v1(Kumar & Jha, 2026)实现了4.82倍IPW提升,但依赖静态效率因子、贪婪优化和未经验证的候选方案选择。QEIL v2将所有静态启发式方法替换为基于物理原理的运行时自适应模型。我们引入三项设备-工作负载指标:源自屋顶线模型的计算利用率指标DASI、基于分配理论的内存压力指标CPQ、以及基于CMOS漏电物理的热效率指标Phi,共同构成系数可追溯至半导体物理的统一能耗方程。优化方面,采用带动量的帕累托引导模拟退火算法(PGSAM)同步最小化能耗、延迟和设备利用率不足问题。推理阶段通过EAC/ARDE选择级联与CSVET早停机制,在重复样本间实现渐进式验证。在WikiText-103、GSM8K和ARC-Challenge基准测试中,覆盖7个模型族(1.25亿至80亿参数,含预量化变体)的实验表明,QEIL v2在63.8W功耗下达到75.7% pass@k(IPW=0.9749),较标准推理提升2.86倍。应用于4比特量化Llama-3.1-8B模型时,QEIL v2基于物理原理的路由机制在54.8W功耗下实现IPW=1.024——这是首个突破IPW=1.0经验参考值的边缘编排系统,其增益完全归功于QEIL v2对内存带宽需求降低模型的工作负载自适应设备分配。相比标准方案,总能耗降低75.6%,延迟减少38.3%,所有基准测试和模型族均实现零热降频与100%故障恢复。
强化学习(RL)通过战略性地整合外部搜索引擎,已成为提升大语言模型(LLM)推理能力的有效途径。然而,当前基于强化学习的搜索代理通常依赖基于精心设计结果奖励的随机探索过程,导致推理轨迹低效且训练不稳定。为解决这些问题,我们提出了一种新颖的层次化经验框架(HiExp),以提升搜索代理的性能与训练稳定性。具体而言,我们通过对比分析和多层级聚类机制提取经验知识,将原始推理轨迹转化为层次化经验知识。借助经验对齐训练,我们有效规范了随机探索行为,使其演变为具有战略性的经验驱动搜索过程。在多个复杂代理搜索与数学推理基准上的大量实验表明,该方法不仅实现了显著的性能提升,还展现出强大的跨任务与跨算法泛化能力。
现有的大语言模型智能体记忆基准主要评估事实的显性记忆能力,却忽视了经验转化为无需意识检索的自动化行为的隐性记忆。这一缺失至关重要:高效的智能助手必须能自动应用习得程序或规避失败操作,而无需显性提示。我们推出首个系统性基准ImplicitMemBench,通过三个基于认知科学经典理论的隐性记忆构念进行评估:程序性记忆(干扰后单次技能习得)、启动效应(通过实验/对照组配对比对实现主题驱动偏差)以及经典条件反射(条件刺激-非条件刺激关联影响首次决策)。我们的300项测试集采用统一的学习/启动-干扰-测试协议,并以首次尝试准确率评分。对17个模型的评估揭示严重缺陷:总体得分最高不超过66%,表现最佳的DeepSeek-R1(65.3%)、Qwen3-32B(64.1%)和GPT-5(63.0%)远低于人类基线。分析发现显著不对称性(抑制任务17.6% vs 偏好任务75.0%)及普遍存在的瓶颈问题,表明需要超越参数扩展的架构创新。ImplicitMemBench将评估重心从"智能体回忆什么"转向"它们自动执行什么"。
视觉语言模型(VLMs)在多模态任务中表现出卓越性能,但神经元群体间如何组织计算仍鲜为人知。本研究通过神经拓扑的视角分析VLMs,将每个网络层表示为基于神经元共激活的层内相关性图。这一视角使我们得以探究:群体层级结构是否具有行为意义、该结构如何随模态与深度变化、以及干预下能否识别出具有因果影响力的内部组件。我们发现相关性拓扑携带可还原的行为信号;更重要的是,跨模态结构会随着网络深度围绕一组紧凑的循环枢纽神经元逐步整合,对这些枢纽节点的定向扰动会显著改变模型输出。神经拓扑由此成为VLM可解释性研究的重要中间尺度:它比局部归因更丰富,比完整回路重建更易处理,且与多模态行为存在实证关联。代码已开源:https://github.com/he-h/vlm-graph-probing。
近期视觉语言模型在文化遗产图像描述方面取得进展,但基于视觉输入推断结构化文化元数据(如创作者、起源地、年代)的研究仍显不足。我们为此任务构建了一个多类别、跨文化的基准数据集,并采用大语言模型即评判框架评估视觉语言模型,通过测量其输出与参考标注的语义匹配度进行分析。为考察文化推理能力,我们按文化区域统计了完全匹配、部分匹配及属性层级的准确率。结果表明,现有模型仅能捕捉碎片化信号,且在不同文化背景和元数据类型上表现差异显著,导致预测结果缺乏一致性和扎实依据。这些发现揭示了当前视觉语言模型在超越视觉感知的结构化文化元数据推断领域存在局限性。
我们提出RewardFlow——一种无需逆向计算的新型框架,通过多奖励朗之万动力学在推理阶段调控预训练的扩散与流匹配模型。该框架统一了语义对齐、感知保真度、局部定位、目标一致性和人类偏好等互补性可微分奖励,并进一步引入基于可微分视觉问答的奖励机制,通过语言-视觉推理提供细粒度语义监督。为协调这些异构目标,我们设计了提示感知自适应策略:从指令中提取语义基元,推断编辑意图,并在整个采样过程中动态调整奖励权重与步长。在多项图像编辑与组合生成基准测试中,RewardFlow在编辑保真度与组合对齐方面均达到最先进水平。
监督式低层视觉模型依赖于针对配对参考图像的逐像素损失函数,但配对训练集存在每对样本间的光度不一致性问题,即不同图像对需要不同的全局亮度、色彩或白平衡映射。这种不一致性可能源自任务固有的光度转换(如低光增强)或无意的采集偏差(如去雨),无论哪种情况都会导致优化异常。标准重建损失会将不成比例的梯度预算分配给相互冲突的每对光度目标,从而挤占内容恢复的优化资源。本文通过理论证明:在最小二乘分解下,预测目标残差的光度分量与结构分量正交,且空间密集的光度分量主导了梯度能量。基于此分析,我们提出光度对齐损失(PAL)。该灵活监督目标通过闭式仿射色彩对齐消除干扰性的光度差异,同时保留与图像复原相关的监督信号,仅需协方差统计量和可忽略开销的微型矩阵求逆操作。在6类任务、16个数据集和16种架构上的实验表明,PAL能持续提升指标性能和泛化能力。具体实现详见附录。
自监督环视深度估计技术能够通过多张最小重叠图像实现360°视场的密集低成本三维感知。然而现有方法普遍存在重叠区域深度估计不一致的问题。针对这一局限,我们提出一种面向标定时间同步多相机阵列的几何引导新方法,可预测稠密公制深度。我们的方法主要解决两个不一致性来源:单图像深度估计在边界区域感受野受限,以及跨视图匹配难度高。通过扩展跨视图感受野并将跨视图注意力限制在局部邻域,我们有效缓解了这两类问题。具体而言,我们通过将图像特定特征点映射至共享圆柱面来建立图像间的邻域关系。基于圆柱面坐标,采用具有非学习权重的显式空间注意力机制,根据特征点在圆柱面上的距离进行跨图像特征聚合。调制后的特征最终被解码为各视角的深度图。在DDAD和nuScenes数据集上的评估表明,相较于现有先进方法,本方案在跨视图深度一致性和整体深度精度方面均有提升。代码详见https://abualhanud.github.io/CylinderDepthPage。