每日精选AI研究论文及翻译
大型推理模型(LRMs)已展现出卓越的推理能力,但常存在过度思考(在简单问题上消耗冗余计算步骤)或思考不足(未能充分利用自身能力探索充分推理路径)的问题。这些缺陷导致效率低下和潜在错误,限制了在资源受限场景中的实际部署。现有缓解过度思考的方法(如抑制反思关键词或调整推理长度)可能意外引发思考不足,从而影响准确性。为此,我们提出ReBalance——一种无需训练即可实现均衡思考的高效推理框架。该框架将置信度作为推理动态的连续指标,通过高方差识别过度思考,通过持续过度自信检测思考不足。通过将小规模数据集的隐藏状态聚合为推理模式原型,我们计算导向向量以引导LRMs的推理轨迹。动态控制函数根据实时置信度调节该向量的强度与方向,在过度思考时剪枝冗余,在思考不足时促进探索。我们在从0.5B到32B的四种模型上进行了广泛实验,覆盖数学推理、通用问答及代码生成等九项基准测试。结果表明,ReBalance在提升准确率的同时有效减少了输出冗余,为LRMs的高效稳健部署提供了一种通用、免训练、即插即用的解决方案。代码已开源:https://github.com/yu-lin-li/ReBalance。
大语言模型(LLM)智能体正日益广泛应用于复杂任务,但已部署的智能体往往保持静态,无法适应用户需求的演变。这导致了持续服务需求与能力更新必要性之间的张力——后者旨在匹配不断变化的任务分布。在OpenClaw这类承载20多个频道多样化工作负载的平台上,现有方法要么未经提炼地存储原始轨迹,要么维持静态技能库,要么需要中断服务进行模型重训练。我们提出MetaClaw——一个持续元学习框架,能协同演化基础LLM策略与可复用行为技能库。该框架通过两种互补机制实现:技能驱动的快速适应通过LLM演化器分析失败轨迹以合成新技能,实现零停机时间的即时性能提升;机会主义策略优化则通过云端LoRA微调和基于过程奖励模型的强化学习(RL-PRM)进行梯度更新,由机会主义元学习调度器(OMLS)在监测到系统空闲时段和日历数据时触发。这两种机制形成良性循环:优化后的策略为技能合成生成更优质的轨迹,而更丰富的技能又为策略优化提供更高质量的数据。为防止数据污染,版本控制机制将支持集与查询集数据隔离。基于代理架构设计的MetaClaw无需本地GPU即可扩展到生产级大模型规模。在MetaClaw-Bench和AutoResearchClaw上的实验表明,技能驱动适应使准确率相对提升最高达32%。完整流水线将Kimi-K2.5模型的准确率从21.4%提升至40.6%,综合鲁棒性提高18.3%。代码已开源:https://github.com/aiming-lab/MetaClaw。
尽管多模态大语言模型(MLLMs)在各类视频任务中的应用已取得进展,但视频事件预测(VEP)领域仍相对缺乏深入探索。VEP要求模型对视频进行细粒度时序建模,并建立视频与未来事件间的逻辑关联,而当前MLLMs在此方面仍存在明显不足。本研究首次对主流MLLMs在VEP任务上的表现进行了系统评估,揭示了其预测失准的根源:包括对未来事件预测的逻辑推理能力缺失,以及视觉信息利用不充分等问题。为应对这些挑战,我们提出事件链(CoE)范式,通过构建时序事件链隐式引导MLLMs聚焦视频内容及其与未来事件的逻辑关联,并借助多重训练机制激发模型的推理能力。在公开基准上的实验结果表明,我们的方法超越了当前领先的开源及商用MLLMs,为VEP任务建立了新的技术标杆。代码与模型即将开源发布。
视频扩散模型正从生成简短可信片段,向构建世界模拟器演进,这类模拟器必须在相机运动、场景重访和交互干预下保持一致性。然而空间记忆仍是关键瓶颈:显式三维结构可通过重投影提升一致性,却难以描绘运动物体;而隐式记忆即使给定正确位姿也常产生不准确的相机运动。我们提出Mosaic记忆(MosaicMem)——一种混合空间记忆,它将图像块提升至三维空间以实现可靠定位与精准检索,同时利用模型原生条件机制保持提示跟随生成能力。通过块组合接口,MosaicMem在查询视图中合成空间对齐的图像块,既保留应持续存在的元素,又允许模型动态修复应演变的区域。结合PRoPE相机条件机制与两种新型记忆对齐方法,实验表明该方法相比隐式记忆具有更优的位姿遵循性,较显式基线则展现出更强的动态建模能力。MosaicMem进一步实现了分钟级导航、基于记忆的场景编辑以及自回归推演等高级功能。
后训练对齐旨在优化语言模型以匹配人类偏好信号,但该目标并不等同于对人类观察行为进行建模。我们比较了120个基础模型与对齐模型组合在超过1万次真实人类决策中的表现,这些决策来自多轮策略性游戏——包括讨价还价、说服、谈判和重复矩阵博弈。在这些情境中,基础模型在预测人类选择方面的表现以近10:1的优势超越其对应对齐模型,且该结果在不同模型家族、提示表述和游戏配置中保持稳健。然而,当人类行为更可能遵循规范性预测时,这种模式会发生逆转:对齐模型在所有12种测试的单次教科书式博弈中均占优势,在非策略性彩票选择任务中同样如此——甚至在多轮博弈内部的第一轮(尚未形成交互历史时)也表现出色。这种边界条件模式表明,对齐会引发规范性偏差:当人类行为相对符合规范性解决方案时能提升预测能力,但在多轮策略性场景中(行为受互惠、报复、历史依赖适应等描述性动态影响)反而会损害预测准确性。这些结果揭示了将模型优化用于人类服务与将其作为人类行为代理之间存在的根本性权衡。
强化学习(RL)已成为训练基于大语言模型的智能体的强大范式,但其样本效率低下问题依然存在。这一局限不仅源于稀疏的结果反馈,更因为智能体无法跨任务周期利用先验经验。虽然通过历史经验增强智能体性能是颇具前景的解决思路,但现有方法存在关键缺陷:从历史中提炼的经验要么被静态存储,要么未能与持续优化的行为主体协同进化,导致经验与行为主体进化能力之间逐渐失配,从而削弱了训练过程中经验的效用。受神经科学中互补学习系统的启发,我们提出互补强化学习框架,实现经验提取器与策略行为主体在RL优化循环中的无缝协同进化。具体而言,行为主体通过稀疏结果奖励进行优化,而经验提取器则根据其提炼的经验是否切实促进行为主体成功来进行优化,从而使经验管理策略与行为主体不断增强的能力保持同步进化。实验表明,互补强化学习在单任务场景中比不学习经验的基于结果的智能体RL基线性能提升10%,并在多任务场景中展现出强大的可扩展性。这些成果确立了互补强化学习作为高效经验驱动型智能体学习的新范式。
人工智能能否在战争轨迹尚未历史性明朗前进行推演?由于回顾性地缘政治预测极易受到训练数据泄露的干扰,这项能力分析变得尤为困难。我们通过基于时间锚点的案例研究来应对这一挑战,聚焦于2026年中东冲突早期阶段——该事件发生在当前前沿模型训练数据截止日期之后。我们构建了11个关键时间节点、42个节点特异性可验证问题和5个全局探索性问题,要求模型仅基于各时间节点当时公开可得信息进行推演。该设计显著缓解了训练数据泄露问题,构建出非常适合研究模型如何在战争迷雾中分析危机演变的场景,并首次实现了对大型语言模型在持续性地缘政治冲突中推理能力的时序锚定分析。我们的研究揭示了三项主要发现:首先,当前最先进的大语言模型常表现出惊人的战略现实主义倾向,能够超越表面修辞洞悉深层结构性动因;其次,这种能力存在领域不均衡性——模型在经济和物流结构化场景中的表现优于政治模糊的多行为体环境;最后,模型叙事会随时间演变,从早期预期快速遏制转向更具系统性的区域僵局与消耗性降级论述。由于本文撰写时冲突仍在持续,这项工作可作为危机演进过程中模型推理能力的档案快照,为未来研究提供免受回顾性分析后见之明干扰的基准。
基于预训练视频生成主干网络初始化的世界-动作模型(WAM)在机器人策略学习领域展现出巨大潜力。然而,现有方法存在两个制约性能与部署的关键瓶颈:首先,联合推理未来视觉动态与对应动作会导致显著的推理开销;其次,联合建模容易造成视觉与运动表征的纠缠,使得动作预测精度过度依赖未来视频生成质量。为解决这些问题,我们提出GigaWorld-Policy——一种以动作为中心的WAM模型,既能学习二维像素-动作动态,又可实现高效动作解码,并支持可选的视频生成功能。具体而言,我们将策略训练解耦为两个耦合组件:模型基于当前观测预测未来动作序列,同时根据预测动作与同一观测生成未来视频。该策略通过动作预测和视频生成的双重监督获得更丰富的学习信号,并借助视觉动态约束激励物理合理的动作生成。由于采用因果设计阻止未来视频令牌影响动作令牌,在推理阶段可选择性启用显式视频生成,从而实现更快速的动作预测。为支撑该范式,我们构建了大规模多样化机器人数据集,预训练出以动作为中心的视频生成模型作为策略学习主干网络。真实机器人平台实验表明,GigaWorld-Policy比领先的WAM基线Motus运行速度快9倍,任务成功率提升7%。相较于pi-0.5模型,GigaWorld-Policy在RoboTwin 2.0环境中的性能提升达95%。
分词技术是多模态生成建模中的基础方法,尤其在近期成为3D生成领域重要选择的自回归模型中具有关键作用。然而,如何实现3D形状的最优分词仍是一个悬而未决的问题。现有前沿方法主要依赖最初为渲染和压缩设计的几何细节层次结构,这类空间层次结构往往存在分词效率低下且缺乏自回归建模所需语义一致性的问题。我们提出语义层次分词法(LoST),该方法依据语义显著度对分词进行排序,使得早期前缀可解码为具备主体语义的完整合理形状,而后续分词则用于细化实例特有的几何与语义细节。为训练LoST模型,我们引入了关系性间距对齐(RIDA)——一种新颖的3D语义对齐损失函数,可将3D形状潜空间的关系结构与语义DINO特征空间的关系结构进行对齐。实验表明,LoST在重建任务中达到业界最优水平,在几何与语义重建指标上均大幅超越基于细节层次的3D形状分词方法。此外,LoST仅需先前自回归模型0.1%-10%的分词量即可实现高效、高质量的3D自回归生成,并能支持语义检索等下游任务。
视觉-语言-动作(VLA)模型近年来已成为机器人操控领域的重要范式,其动作预测的可靠性关键取决于对语言指令条件下视觉观测的精准解析与融合。尽管现有研究致力于增强VLA模型的视觉能力,但多数方法将大语言模型主干视为黑箱,难以揭示视觉信息如何被 grounding 至动作生成的过程。为此,我们对多种动作生成范式下的VLA模型展开系统性分析,发现动作生成过程中深层网络对视觉标记的敏感度会逐层递减。基于此发现,我们提出基于视觉-语言混合Transformer(VL-MoT)框架的DeepVision-VLA。该框架通过视觉基础模型与VLA主干的共享注意力机制,将视觉专家模型的多层级特征注入VLA主干的深层网络,从而增强复杂精细操控任务的视觉表征能力。此外,我们引入动作引导的视觉剪枝(AGVP)方法,利用浅层注意力保留任务相关视觉标记并剔除冗余信息,以最小计算开销强化关键视觉线索。实验表明,DeepVision-VLA在仿真与真实场景任务中分别以9.0%和7.5%的优势超越现有最优方法,为视觉增强型VLA模型的设计提供了新思路。
大型语言模型(LLMs)日益将用户偏好存储于持久记忆中以实现跨交互的个性化服务。然而,在受社会与制度规范约束的第三方沟通场景中,部分用户偏好的应用可能失当。我们提出BenchPreS评估框架,用于检验基于记忆的用户偏好能否在不同沟通情境中被恰当应用或抑制。通过误用率(MR)与恰当应用率(AAR)两项互补指标,研究发现即使前沿LLMs也难以实现情境敏感的偏好应用。偏好遵循能力更强的模型表现出更高的过度应用倾向,且推理能力与提示干预均无法完全解决该问题。这些结果表明当前LLMs将个性化偏好视为全局强制规则,而非依情境而变的规范性信号。
多模态大语言模型(MLLMs)通常采用多阶段训练模式,其中基于视频的监督微调(Video-SFT)是提升视觉理解能力的关键步骤。然而,该方法对视觉能力细粒度演化的影响——尤其是空间与时间理解之间的平衡机制——仍缺乏深入认知。本文系统研究了Video-SFT如何重塑MLLMs的视觉能力。在不同架构、参数规模和帧采样设置下,我们观察到一致规律:Video-SFT能稳定提升视频理解性能,但在静态图像基准测试中往往收效甚微甚至出现性能衰退。进一步研究表明,这种权衡与时间预算密切相关:增加采样帧数通常能提升视频性能,但无法稳定改善静态图像理解。基于此发现,我们提出一种指令感知的混合帧策略,通过自适应分配帧数量部分缓解图像-视频权衡问题。实验结果表明,Video-SFT并非MLLMs的通用解决方案,在联合图像-视频训练中保持空间理解能力仍是核心挑战。
视觉语言模型(VLM)领域近期出现一种趋势:通过增强空间认知能力以适配具身应用场景。尽管已有进展,但现有评估方法在范式与覆盖范围上均存在局限,阻碍了模型的快速迭代开发。为突破这些限制,我们提出ESPIRE——面向具身空间推理的诊断性基准框架。该框架通过构建模拟世界为VLM提供物理基础环境,并在以空间推理为核心任务的机器人场景中进行评估,从而缩小评估与实际部署之间的差距。为使VLM适配机器人任务,我们将每项任务分解为定位与执行两个阶段,并将其构建为生成式问题,这与依赖干扰项且忽略执行过程的判别式评估方法(如视觉问答)形成鲜明对比。这种任务分解机制还能实现从被动空间推理到行动推理的细粒度分析。我们在指令层级与环境层级系统化设计ESPIRE,确保对空间推理场景的广泛覆盖。基于该基准,我们对前沿VLM系列模型进行诊断,并深入解析其空间推理行为特征。
我们推出V-JEPA 2.1系列自监督模型,该模型能同时学习图像与视频的密集高质量视觉表征,并保持强大的全局场景理解能力。该方法融合四大核心要素:首先,密集预测损失采用基于掩码的目标函数,使可见与掩码标记共同贡献训练信号,强化空间与时间维度的显式定位;其次,深层自监督机制将自监督目标分层应用于多个编码器中间层,提升表征质量;第三,多模态标记器实现图像与视频的统一训练;最后,模型通过模型容量与训练数据的有效扩展获得增益。这些设计共同催生了具有空间结构化、语义连贯性和时间一致性的视觉表征。 实证研究表明,V-JEPA 2.1在多项挑战性基准测试中实现突破性性能:在Ego4D短期物体交互预测任务中达到7.71 mAP,在EPIC-KITCHENS高层动作预测任务中取得40.8 Recall@5,真实机器人抓取成功率较V-JEPA-2 AC提升20个百分点。该模型还在机器人导航(TartanDrive数据集5.687 ATE)、深度估计(NYUv2数据集线性探测0.307 RMSE)和全局识别(Something-Something-V2数据集77.7准确率)任务中表现优异。这些成果表明V-JEPA 2.1在密集视觉理解与世界建模领域显著推动了技术前沿。
我们提出StereoWorld——一种相机条件化的立体世界模型,该模型通过联合学习外观与双目几何特性,实现端到端的立体视频生成。与单目RGB或RGBD方法不同,StereoWorld完全基于RGB模态运行,同时直接从视差中构建几何基础。为实现高效且一致的立体生成,我们引入两项核心设计:(1)统一相机坐标系旋转位置编码(RoPE),通过相机感知的旋转位置编码增强潜空间标记,在保持预训练视频先验的基础上,实现相对视角与时间一致的条件控制;(2)立体感知注意力分解机制,将完整的4D注意力拆分为3D视图内注意力与水平行注意力,利用极线几何先验以显著降低的计算量捕捉视差对齐的对应关系。在多项基准测试中,StereoWorld在立体一致性、视差精度和相机运动保真度上均优于强力的“单目生成后转换”流程,生成速度提升3倍以上,视角一致性额外提升5%。除基准测试外,StereoWorld无需深度估计或修补即可实现端到端双目VR渲染,通过度量级深度基础增强具身策略学习,并能兼容长视频蒸馏技术以实现扩展式交互立体合成。
大型语言模型(LLM)智能体日益依赖外部记忆来支持长程交互、个性化辅助和多步推理。然而,现有记忆系统仍面临三大核心挑战:过度依赖语义相似性,可能遗漏用户中心理解的关键证据;常将相关经验存储为孤立片段,削弱时序与因果连贯性;通常采用静态记忆粒度,难以适配不同问题的需求。我们提出AdaMem——面向长程对话智能体的自适应用户中心记忆框架。该框架将对话历史组织为工作记忆、情景记忆、角色记忆和图记忆,使系统能在统一架构下保存近期上下文、结构化长期经验、稳定用户特征及关系感知连接。在推理阶段,AdaMem首先确定目标参与者,随后构建问题导向的检索路径——仅在必要时将语义检索与关系感知图扩展相结合,最终通过专设的证据合成与响应生成角色管道生成答案。我们在长程推理与用户建模基准LoCoMo和PERSONAMEM上评估AdaMem,实验结果表明其在两项基准上均达到最先进性能。代码将在论文录用后开源。
离线后训练通过监督回归记录动作的方式,将预训练的机器人策略适配至目标数据集。实践中,机器人数据集具有异构性:混合了不同本体结构、相机配置及质量参差不齐的演示数据,导致许多轨迹反映的是纠偏行为、操作者技能不一致或弱监督信息。均匀后训练赋予所有样本同等权重,因而会在冲突或低关联度的数据上取平均值。我们提出后验转移重加权(PTR),这是一种无需奖励且保守的后训练方法,可判定每个训练样本应如何影响监督更新。PTR将每个样本观测到的动作后效编码为潜变量目标,将其插入失配目标的候选池,并利用独立的转移评分器估算目标索引的softmax识别后验。后验与均匀分布之比定义为PTR分数,该分数经截断混合加权后,通过自归一化加权回归应用于原始动作目标。此构造无需处理策略似然函数,同时兼容扩散和流匹配动作头。PTR并非均匀信任所有记录数据,而是根据每个样本的动作后效在当前表征下的可归因性重新分配权重,从而提升异构机器人数据的保守离线适配效果。
我们开发了一种在线学习算法,显著提升了基于人类反馈的强化学习(RLHF)的数据效率。该算法能够在接收选择数据时同步更新奖励模型和语言模型:奖励模型通过拟合选择数据获得,语言模型则采用改进版REINFORCE算法进行更新,其强化信号由奖励模型提供。实现效率提升的关键技术包括:为每个强化信号添加微小正向激励、采用模拟奖励不确定性的认知神经网络,以及信息导向的探索机制。使用Gemma大语言模型(LLM)进行实验表明,我们的算法仅需不到2万条标注数据即可达到传统离线RLHF使用20万条标注数据的性能水平,实现了超过10倍的数据效率提升。根据结果外推,我们预计使用100万条标注数据训练的算法可媲美传统离线RLHF使用10亿条标注数据的表现,相当于实现1000倍的效率提升。据我们所知,这是首次实证证明如此大幅度的改进具有可行性。
令牌剪枝对于提升视觉语言模型(VLMs)的计算效率至关重要,尤其在存在时间冗余的视频任务中。现有方法通常仅在视觉变换器(ViT)内针对单模态感知任务(如行为识别和物体分割)进行令牌剪枝,未适配下游视觉语言任务;或仅在大型语言模型(LLM)内剪枝而保持ViT输出完整,往往需要复杂的文本条件令牌选择机制。本文提出时空令牌评分(STTS),该轻量级模块无需文本条件或令牌融合即可在ViT和LLM中同步剪枝视觉令牌,并完全兼容端到端训练。通过辅助损失实现时间维度评分、借助LLM下游梯度实现空间维度评分,结合高效打包算法,STTS能在整个架构中剪除50%的视觉令牌,在13项长短视频问答任务上仅平均性能下降0.7%的同时,训练与推理效率提升62%。随着视频采样帧数增加,效率增益更为显著。针对长视频问答任务的应用时缩放策略还可较基线额外获得0.5-1%的性能提升。总体而言,STTS为架构级统一视觉令牌剪枝提供了一种新颖、简洁而有效的技术路径。
传统令牌选择专家混合(TC-MoE)方法将每个令牌路由至固定数量的专家,这限制了动态计算分配能力且需依赖辅助损失函数维持负载均衡。我们提出专家阈值路由(ET)方法:每个专家通过指数移动平均法(EMA)根据全局令牌分布估算动态阈值。在训练和推理过程中,当令牌的评分超过专家阈值时即被独立路由至该专家,从而实现动态计算分配,并在无需辅助损失的情况下达成负载均衡。这种完全因果机制消除了对批次内其他令牌的依赖,使其特别适合自回归语言建模。在FineWeb-Edu数据集上进行的2.4B参数预训练实验中,ET方法相比TC-MoE实现了交叉熵损失降低0.067,等效于用减少1.6倍的训练令牌量达到同等性能。
后训练量化对于在资源受限硬件上部署大语言模型至关重要,但现有先进方法强制所有层采用统一比特宽度,导致精度与效率的权衡欠佳。我们提出RAMP(强化自适应混合精度)——一种基于离策略软演员-评论家框架的方法,该框架通过学习逐层比特宽度分配策略,在全局比特预算下最小化模型困惑度。该策略基于11维嵌入向量进行决策,该向量融合了激活统计量、权重特性与结构描述符,从而实现跨模型家族与规模的零样本迁移。为实现稳定的4比特以下量化,我们提出尺度折叠技术,这种预处理方法通过逐通道缩放和归一化层补偿,将激活异常值迁移至权重中。采用非对称惩罚和预算悬崖机制的质量优先奖励函数可驱动策略快速收敛。在Llama 2 7B模型上,RAMP以3.68GB存储(3.65有效比特)实现5.54困惑度,相较统一4比特AWQ(3.90GB存储下困惑度5.60)模型体积减小6%,质量提升1%-3%。关键的是,仅基于Llama 2 7B训练的策略可零样本泛化至Llama 2 13B和Mistral 7B,其表现甚至常优于针对特定目标的训练,这支持了“量化敏感性主要源于架构特性”的假设。HALO流水线可将比特分配方案导出为GGUF格式,实现在CPU、GPU及边缘设备上的无内核推理,保留FP16版本99.5%的常识推理性能。
媒体设计图层生成技术实现了仅通过自然语言提示即可创建完全可编辑的分层设计文档(如海报、传单和标识)。现有方法要么将输出限制在固定图层数量,要么要求每个图层仅包含空间连续区域,导致图层数量随设计复杂度线性增长。我们提出LaDe(分层媒体设计)——一种能够生成灵活数量语义化图层的潜在扩散框架。该框架融合三大组件:基于大语言模型的提示扩展器,将简短用户意图转化为结构化分层描述以指导生成;采用4D RoPE位置编码机制的潜在扩散变换器,联合生成完整媒体设计及其RGBA组成图层;支持完整Alpha通道的RGBA变分自编码器,用于解码各图层。通过在训练中引入图层样本条件化,我们的统一框架支持三大任务:文本到图像生成、文本到图层媒体设计生成以及媒体设计解构。在Crello测试集上,我们针对文本到图层和图像到图层任务将LaDe与Qwen-Image-Layered进行对比。经两种VLM评估器(GPT-4o mini和Qwen3-VL)验证,LaDe通过提升文本与图层对齐度,在文本到图层生成任务中表现优于Qwen-Image-Layered。
尽管大型语言模型(LLMs)仅接受下一词元生成训练,却展现出潜在的多元词元预测(MTP)能力。我们提出一种无需训练的简易MTP方法,通过从模型嵌入空间动态提取掩码词元进行探测,无需修改模型权重或依赖辅助草案模型即可实现未来词元的并行预测。该方法通过从掩码词元逻辑值中采样Top-K候选构建推测式词元树,并采用轻量级剪枝策略保留高概率延续序列。在解码过程中,候选预测结果经并行验证,在实现无损生成的同时显著减少模型调用次数并提升词元吞吐量。在多项基准测试中,基于探测的MTP方法始终优于现有无需训练的基线模型:在LLaMA3上接受长度提升约12%,在Qwen3上提升8-12%,吞吐量增益最高达15-19%。最后,我们通过理论分析与实证表明,解码器层能自然对齐掩码词元表征与下一词元状态,无需重新训练或辅助模型即可实现精准的多步预测。
CLIP类视觉语言模型在自然图像上的成功启发了医学领域的对应研究,但现有方法大多陷入两个极端:基于单领域数据训练的专科模型虽能捕捉领域细节但泛化能力差,而基于多领域数据训练的全科医学VLM虽保留广泛语义却弱化了细粒度诊断线索。为平衡这种专科化与泛化能力的矛盾,我们提出参数高效的通用医学VLM适配框架ACE-LoRA,在保持零样本泛化能力的同时,通过三个关键创新实现突破:首先,在冻结的图像-文本编码器中嵌入低秩自适应模块;其次,引入基于注意力的上下文增强超图神经网络模块,通过捕获超越成对相似性的高阶上下文交互,将局部诊断线索融入全局表征,解决了现有参数高效微调方法忽视细粒度细节的核心局限;此外,我们构建标签引导的InfoNCE损失函数,有效抑制语义相关图文对间的假阴性样本,增强跨模态对齐。尽管仅增加95万个可训练参数,ACE-LoRA在涵盖多领域的零样本分类、分割和检测任务中均显著优于当前最先进的医学VLM及参数高效微调基线。代码已开源:https://github.com/icon-lab/ACE-LoRA。
我们提出分布收缩强化学习(DICE-RL)框架,该框架将强化学习作为"分布收缩"算子来优化预训练的生成式机器人策略。DICE-RL通过在线反馈放大高成功率行为,将预训练的行为先验转化为高性能的"专业"策略。我们首先预训练具有广泛行为覆盖度的扩散或流模型策略,随后采用结合选择性行为正则化与价值引导动作选择的稳定、样本高效的残差离线策略强化学习框架进行微调。大量实验与分析表明,DICE-RL能以强大的稳定性和样本效率持续提升策略性能,在仿真和真实机器人场景中均可直接基于高维像素输入掌握复杂的长时程操作技能。项目网站:https://zhanyisun.github.io/dice.rl.2026/。
将语言模型扩展至视频领域面临两大挑战:表征层面现有方法依赖有损近似,长上下文处理中基于字幕或智能体的流程会将视频压缩为文本导致视觉保真度下降。为此我们提出VideoAtlas——一种任务无关的环境,将视频表示为分层网格结构,兼具无损、可导航、可扩展、免字幕和免预处理特性。该系统支持全局概览,可递归放大任意区域,并使用统一视觉表征贯穿视频内容、中间分析及智能体记忆,实现端到端的无损处理。这种分层结构确保访问深度仅随视频长度呈对数增长。针对长上下文问题,递归语言模型(RLM)虽为长文本提供了解决方案,但其视觉领域扩展需要结构化递归环境,这正是VideoAtlas的核心价值。将VideoAtlas建模为马尔可夫决策过程,我们开发出Video-RLM:采用主从并行架构,主节点协调全局探索,从节点并发钻取指定区域以积累无损视觉证据。实验揭示三大发现:(1)计算量随视频时长呈对数增长,网格结构复用带来的30-60%多模态缓存命中率进一步优化效率;(2)通过限制最大探索深度实现环境预算机制,形成计算精度权衡的超参数;(3)涌现出自适应计算分配能力,可根据问题粒度动态调整。在从1小时到10小时的基准测试中,Video-RLM始终保持最佳的时长鲁棒性,精度衰减最小,证明结构化环境导航是实现可扩展视频理解的有效范式。
多模态大语言模型(MLLMs)在细粒度查询上存在幻觉问题,而现有基准测试多关注粗粒度图像问题,未能充分体现这一挑战。我们提出细粒度负向查询框架FINER,并构建FINER-CompreCap与FINER-DOCCI两个基准集。基于FINER,我们从多对象、多属性、多关系和“是什么”四类场景系统分析幻觉现象。实验表明,当细粒度失配与图像中真实存在的元素同时出现时,MLLMs易产生幻觉。为此,我们提出FINER-Tuning方法,利用FINER启发的数据实施直接偏好优化(DPO)。对四个前沿MLLMs进行FINER调优后,在基准测试中最高可降低24.2%的幻觉率(InternVL3.5-14B),同时在八个现有幻觉测试集上表现提升,并在六个多模态基准中增强通用能力。代码、基准数据及模型详见https://explainableml.github.io/finer-project/。
大规模视觉语言模型(如CLIP)在下游任务适配时,常因采用"一刀切"的架构方案而受限——视觉与文本标记均通过宽泛的通用适配器进行统一处理。我们认为这种同质化处理忽视了不同模态的内在结构特性:图像的空间局部性与文本的语义密集性。为此,我们提出异质瓶颈适配器(HeBA),该统一架构框架通过引入模态特定的结构归纳偏置来解决这一问题。HeBA通过三项关键架构创新突破传统设计:(1)异质性:通过二维深度可分离卷积处理视觉标记以保持空间关联性,同时采用稠密线性投影差异化处理文本标记以捕捉语义关系;(2)瓶颈正则化:与标准扩展型适配器不同,HeBA采用压缩瓶颈结构(D→D/4),显式迫使模型学习紧凑鲁棒的特征,并起到结构正则化器的作用;(3)主动梯度初始化:我们突破限制性零初始化范式,采用Kaiming初始化策略确保充足的初始梯度流,在保持冻结主干网络预训练知识的同时加速收敛。大量实验表明,HeBA的架构专业化设计实现了卓越的稳定性与准确度,在11个少样本基准测试中创造了最新性能纪录。代码已开源:https://github.com/Jahid12012021/VLM-HeBA。
随着AI智能体的兴起,自动化科学发现已成为可实现的目标。近期许多研究构建了能够执行机器学习研究的智能体系统,但缺乏训练此类智能体的系统性方法——当前大语言模型常生成看似合理却无效的方案。为推进智能体的实践学习能力,我们开发了针对机器学习智能体的新型合成环境生成流程。该流程能自动生成兼容SWE-agent框架的机器学习挑战任务,涵盖主题采样、数据集提案和代码生成三大模块。生成的合成任务具有两大特性:1)基于真实机器学习数据集,通过Huggingface API验证数据集有效性;2)通过自调试循环确保更高质量。为验证合成任务的有效性,我们在机器学习基准测试MLGym上进行评估:先从教师模型(GPT-5)对合成任务进行轨迹采样,再用这些轨迹训练学生模型(Qwen3-4B与Qwen3-8B)。实验表明,使用合成任务训练的学生模型在MLGym上表现显著提升,Qwen3-4B的AUP指标提高9%,Qwen3-8B提升12%。
基于视觉Transformer的固定骨干网络迁移面临两个未充分解决的问题:当适配器被简单插入固定特征提取器时出现的优化不稳定性,以及缺乏设定适配器容量的原则性指导。我们提出AdapterTune方法,通过在每个Transformer模块中添加残差低秩瓶颈结构,并将其上投影层初始化为零,确保适配网络从预训练函数精确启动,从而消除早期训练阶段的表征漂移。在理论分析层面,我们将适配器秩形式化为特征空间中逼近下游任务偏移的容量预算。由此得到的超额风险分解预测:随着秩的增加,精度提升呈现单调但递减的"肘部"现象,这一规律通过控制变量实验得到验证。我们在9个数据集和3种骨干网络规模上进行了全面评估,所有实验均采用多随机种子报告结果。在核心的5数据集迁移测试中,AdapterTune相比仅训练分类头的方法将Top-1准确率平均提升14.9个百分点,仅需全参数微调0.92%的参数量,并在15个数据集-骨干网络组合中的10个上超越全参数微调。在整个基准测试中,AdapterTune在所有数据集-骨干网络组合上均优于仅训练分类头的方法。通过对秩、放置位置和初始化方式的消融实验,我们分离了每个设计选择的影响。代码已开源:https://github.com/salimkhazem/adaptertune
近期三维基础模型的进展使得人体及其周边环境重建研究日益受到关注。然而现有方法多聚焦于单目输入,将其扩展至多视角场景需依赖附加模块或预处理数据。为此,我们提出CHROMM统一框架,可直接从多人多视角视频中联合估计相机参数、场景点云及人体网格,无需外部模块或预处理。该框架将Pi3X的几何先验与Multi-HMR的人体先验整合至单一可训练神经网络架构,并引入尺度调整模块以解决人体与场景的尺度差异问题。我们还提出多视角融合策略,在测试阶段将各视角估计聚合为统一表征。此外,基于几何信息的多人关联方法相较基于表观的方法更具鲁棒性。在EMDB、RICH、EgoHumans和EgoExo4D数据集上的实验表明,CHROMM在全局人体运动与多视角姿态估计任务中达到先进性能,且运行速度较传统基于优化的多视角方法提升8倍以上。项目页面:https://nstar1125.github.io/chromm。
我们提出PRISM研究项目,这是针对大语言模型训练中期设计选择的综合性实证研究。通过对涵盖四个模型家族(Granite、LLaMA、Mistral、Nemotron-H)、两种架构类型(稠密Transformer与注意力-状态空间混合架构)、参数量级从30亿到240亿的七个基础模型进行对照实验,我们发现:在约270亿高质量token上进行中期训练后,模型在数学任务上获得+15至+40分提升,代码任务+5至+12分,科学推理任务+6至+13分,同时保持通用性能不变。完整的PRISM到强化学习流程将六大推理基准的宏观平均分从不足12分提升至29-42分(提升3-4倍),而直接对多数基础模型应用强化学习的效果显著较弱,AIME评分接近零。数据构成对中期训练的影响远大于强化学习:在中期训练中加入科学数据可使强化学习后的GPQA-Diamond评分提升+17至+28分,而调整强化学习数据组合带来的差异不足2分。机制分析表明,中期训练会重构超过90%的模型参数,而强化学习仅对约5%的参数进行稀疏的前置优化。表征分析(CKA)证实,强化学习在不同架构中均能保持中期训练的表征几何结构(CKA超过0.998)。关键发现是:尽管强化学习对不同起点模型施加相同的参数调整,但仅对完成中期训练的模型有效,这表明中期训练能将模型置于强化学习可有效提升性能的配置状态。我们的研究证明,具有参数保持特性的中期训练能可靠增强推理能力,并为构建稳健的中期训练流程提供了实践指导。
大型语言模型(LLMs)能够流畅回答宗教知识查询,但常常产生虚构内容并错误归因来源,这在伊斯兰应用场景中尤为严重——用户期望回答必须基于《古兰经》和圣训等经典文本,并体现教法学的精微差异。检索增强生成(RAG)技术通过将生成过程锚定于外部证据,部分缓解了这些局限。然而,单一的"检索-生成"流水线难以应对伊斯兰查询的多样性:用户可能要求直接引用经文、需要附权威出处的教法裁决式指导,或是涉及天课与遗产继承等需严格遵循算术及法理约束的计算任务。本文提出双语言(阿拉伯语/英语)多智能体伊斯兰助手Fanar-Sadiq,作为Fanar AI平台的核心组件。该系统采用工具调用型智能体架构,将伊斯兰相关查询路由至专用模块,支持意图感知路由、带有确定性引文规范化与验证轨迹的检索增强型教法答案、精确经文查找与引文验证,以及涵盖逊尼派四大教法学派分支的确定性天课与遗产计算器。我们在公开伊斯兰问答基准上对端到端系统进行评估,验证了其有效性与高效性。目前该系统通过API和网页应用向公众免费开放,在不足一年内已获得约190万次访问。