每日精选AI研究论文及翻译
视觉语言模型(VLM)的发展长期依赖模型规模的扩大,这阻碍了其在计算资源受限的移动及边缘设备(如智能手机和机器人)上的部署。本研究探索了紧凑型(如20亿和80亿参数)VLM的性能极限,并对当前主流实践——即先进VLM必须依赖基于大规模对比预训练(如CLIP/SigLIP)初始化的视觉编码器——提出挑战。我们发现存在目标错位问题:以区分性为优化目标的对比学习会强制形成粗粒度的类别级不变性,从而抑制了密集描述和复杂VLM推理所需的细粒度视觉线索。针对该问题,我们提出Penguin-VL模型,其视觉编码器由纯文本大语言模型(LLM)初始化。实验表明,Penguin编码器可作为传统对比预训练的优越替代方案,为多模态理解解锁更高程度的视觉保真度和数据效率。在各类图像与视频基准测试中,Penguin-VL在数学推理任务上达到与主流VLM(如Qwen3-VL)相当的性能,并在文档理解、视觉知识问答及多视角视频理解等任务中实现超越。值得注意的是,这些成果通过轻量级架构实现,证明视觉表征的改进而非模型缩放才是性能提升的主要驱动力。消融实验显示,Penguin编码器始终优于对比预训练的编码器,能保留对密集感知和复杂推理至关重要的细粒度时空线索,使其成为计算高效型VLM的强力即插即用替代方案,助力资源受限场景下的高性能部署。代码地址:https://github.com/tencent-ailab/Penguin-VL
近端约束是保障大语言模型强化学习稳定性的核心机制。虽然PPO中的标准裁剪机制作为信赖域的高效替代方案,但我们发现其存在关键瓶颈:固定边界严格限制了低概率动作的向上更新空间,不成比例地压制了高优势值的尾部策略,进而引发熵值快速崩塌。为此,我们提出带约束策略优化(BandPO)。BandPO采用理论统一的Band算子替代标准裁剪机制,该算子将通过f-散度定义的信赖域映射至动态的概率感知裁剪区间。理论分析证实Band能有效解决这一探索瓶颈。我们将该映射构建为凸优化问题,在保证获得全局最优数值解的同时,针对特定散度推导出闭式解。跨模型与数据集的广泛实验表明,BandPO在持续优于标准裁剪与Clip-Higher方法的同时,能稳健缓解熵崩塌现象。
世界模型为模拟基于动作或指令的环境动态提供了强大框架,能够支持动作规划或策略学习等下游任务。当前方法虽将世界模型作为学习型模拟器使用,但其在决策时规划中的应用仍因计算量过大而难以实现实时控制。关键瓶颈在于潜在表征:传统分词器将每个观测编码为数百个词元,导致规划速度缓慢且资源密集。为此,我们提出CompACT——一种将每个观测压缩至仅8个词元的离散分词器,在保留规划所需关键信息的同时大幅降低计算成本。搭载CompACT分词器的动作条件世界模型实现了具有竞争力的规划性能,其规划速度提升数个数量级,为世界模型的实际部署迈出关键一步。
要实现工业化级的人类视频生成,数字演员必须在动态镜头、多视角切换和复杂动作中保持严格一致的全身份特征,这一目标对现有方法仍具挑战性。现有技术往往存在面部中心化倾向而忽略身体层面的连贯性,或产生因姿态锁定导致主体僵硬的复制粘贴痕迹。我们推出Actor-18M——一个专为捕捉无约束视角环境下身份一致性而设计的大规模人类视频数据集,包含160万段视频及对应的1800万张人体图像,同时涵盖任意视角与标准三视角表征。基于该数据集,我们提出支持任意视角条件的人类视频生成框架WildActor,创新性地引入非对称身份保持注意力机制,并结合视角自适应蒙特卡洛采样策略,通过边际效用迭代重加权参考条件以实现均衡的流形覆盖。在自建评估基准Actor-Bench上的实验表明,WildActor在多样化镜头构图、大视角转换及剧烈运动场景下均能稳定保持身体身份特征,在这些挑战性设定中超越现有方法。
思维链监控是检测现代推理模型异常行为并理解其动机的有效工具。然而,若模型能控制其思维链中的语言表达,则可能削弱思维链的可监控性。为衡量这种不良能力——思维链可控性,我们推出CoT-Control评估套件,包含要求模型在遵循思维链指令前提下解决问题的任务,例如在不使用"染色体"一词的情况下推理遗传学问题。研究发现,推理模型的思维链可控性显著低于输出可控性:以Claude Sonnet 4.5为例,其思维链可控率仅为2.7%,而最终输出可控率高达61.9%。我们还发现,更大规模模型的思维链可控性更高,但随着强化学习训练、测试时计算资源增加以及问题难度提升,该能力会下降。即使模型被给予规避思维链监控的激励(而非直接指令),其可控性失效现象依然存在,不过当模型被告知处于被监控状态时,可控性会略有提升。同样,通过对抗性优化提示词来激发可控性,并未带来实质性提升。这些结果使我们谨慎乐观地认为,当前思维链可控性尚不构成思维链可监控性的失效模式。但低可控性背后的机制尚未明晰。鉴于其对维护思维链可监控性的重要性,我们建议前沿实验室在后续模型中持续追踪思维链可控性指标。
Transformer架构构成了大多数现代大语言模型的核心基础,因此其预训练稳定性与收敛速度至关重要。受序列堆叠层间逻辑依赖关系的启发,我们提出渐进式残差预热方法(ProRes)用于语言模型预训练。该方法践行"浅层先学"的理念,通过将每层残差乘以一个从0渐增至1的标量系数(深层对应更长的预热步数),使深层等待浅层进入稳定状态后再参与学习。我们在不同模型规模、归一化方案及初始化策略下的预训练实验证明了ProRes的有效性。综合分析表明,该方法不仅能提升预训练稳定性,还形成了独特的优化轨迹,从而实现更快收敛、更强泛化能力及更优下游性能。代码已开源:https://github.com/dandingsky/ProRes。
记忆能力对于长周期且依赖历史操作的机器人操控任务至关重要。这类任务常涉及重复动作计数或处理暂时被遮挡的物体。近期出现的视觉-语言-动作模型已开始引入记忆机制,但其评估仍局限于狭窄的非标准化场景,这限制了对模型的系统性理解、比较与进展衡量。为应对这些挑战,我们推出RoboMME:一个用于评估和推进VLA模型在长周期历史依赖场景中表现的大规模标准化基准。该基准包含基于精心设计分类法构建的16项操控任务,可评估时序记忆、空间记忆、物体记忆与流程记忆。我们进一步基于π0.5主干网络开发了包含14种记忆增强型VLA变体的测试套件,系统探索了多种集成策略下的不同记忆表征。实验结果表明,记忆表征的有效性高度依赖具体任务,不同设计在各任务中均展现出独特的优势与局限。视频及代码详见项目网站https://robomme.github.io。
扩散变换器将图像处理为由静态分块操作生成的固定长度令牌序列。尽管这种设计有效,但它对低信息区域和高信息区域采用均匀计算,忽略了图像包含不同细节程度的区域,且去噪过程会从早期时间步的粗粒度结构逐渐过渡到后期时间步的细粒度细节。我们提出动态分块扩散变换器(DC-DiT),通过为DiT主干网络添加可学习的编码器-路由器-解码器支架,以端到端的扩散训练方式学习分块机制,从而根据数据特性自适应地将二维输入压缩为更短的令牌序列。该机制能够将均匀背景区域压缩为较少令牌,而将细节丰富区域保留更多令牌,并在无显式监督的情况下自然形成有意义的视觉分割。此外,该机制还能根据扩散时间步动态调整压缩策略:在噪声较多的阶段使用较少令牌,随着细部细节的显现增加令牌数量。在类别条件ImageNet 256×256数据集上,DC-DiT在4倍和16倍压缩比下,相较于参数匹配和FLOP匹配的DiT基线模型,均持续提升FID和Inception Score指标,表明这是一项具有潜力的技术,未来可进一步应用于像素空间、视频及3D生成领域。除精度提升外,DC-DiT兼具实用性:可从预训练的DiT检查点进行升级(最多减少8倍训练步数),并能与其他动态计算方法结合以进一步降低生成过程的FLOPs消耗。
基于扩散模型的视频生成技术虽在视觉真实感方面取得显著进展,但仍难以遵循重力、惯性和碰撞等基本物理定律。生成物体常出现帧间运动不一致、动态表现失真或违反物理约束等问题,限制了AI生成视频的真实性与可靠性。为此,我们提出物理模拟器在环视频生成框架(PSIVG),通过将物理模拟器嵌入视频扩散过程来突破这一局限。该框架以预训练扩散模型生成的模板视频为起点,重建四维场景与前景物体网格,在物理模拟器中初始化并生成符合物理规律的运动轨迹。这些模拟轨迹随后引导视频生成器实现时空物理一致性运动。为进一步提升物体运动过程中的纹理一致性,我们提出测试时纹理一致性优化技术(TTCO),基于模拟器提取的像素对应关系自适应调整文本与特征嵌入。综合实验表明,PSIVG在保持视觉质量与多样性的同时,能生成更贴合现实物理规律的视频。项目页面:https://vcai.mpi-inf.mpg.de/projects/PSIVG/
近期大语言模型(LLM)的突破为多模态推理开辟了新途径。然而,现有方法大多仍依赖预训练视觉语言模型(VLM)对图文对进行孤立编码,忽视了现实世界多模态数据天然形成的关系结构。这推动了多模态图(MMG)推理的发展——图中每个节点具备文本与视觉双重属性,边则提供结构线索。要实现基于LLM的异质多模态信号推理同时保持图拓扑结构,需解决两大核心挑战:弱跨模态一致性问题与异质模态偏好问题。为此,我们提出Mario框架,通过统一架构同步解决上述挑战,实现高效的MMG多模态推理。该框架包含两个创新阶段:首先采用图条件化VLM设计,通过图拓扑引导的细粒度跨模态对比学习联合优化文本与视觉特征;其次引入模态自适应图指令调优机制,将对齐的多模态特征组织为图感知指令视图,并利用可学习路由器为每个节点及其邻域动态呈现最具信息量的模态配置。在多类MMG基准测试上的实验表明,Mario在节点分类与链接预测任务的有监督及零样本场景下,均持续超越当前最先进的图模型。代码已发布于https://github.com/sunyuanfu/Mario。
传统顺序执行的LLM智能体在面临预算和多样性要求等硬约束的长期规划任务时表现不佳。随着规划进程推进和上下文增长,这些智能体会逐渐偏离全局约束。我们提出HiMAP-Travel分层多智能体框架,将规划分解为战略协调和并行日程执行两个层级:协调器负责跨日期分配资源,而日程执行器则并行独立规划。该框架通过三大核心机制实现:事务监控器确保并行智能体间的预算与唯一性约束,协商协议允许智能体拒绝不可行子目标并触发重规划,以及通过角色条件化实现的GRPO统一训练策略。在TravelPlanner测试中,搭载Qwen3-8B的HiMAP-Travel取得52.78%验证集和52.65%测试集最终通过率。在控制模型、训练和工具一致的对比实验中,其表现较顺序执行的DeepTravel基线提升8.67个百分点,同时超越ATLAS方法17.65个百分点、MTP方法10.0个百分点。在FlexTravelBench多轮对话场景中,通过并行化将延迟降低2.5倍的同时,实现44.34%(双轮)和37.42%(三轮)的最终通过率。
视觉特效(VFX)对于提升视频内容的表现力与创意至关重要,但高质量特效制作通常需要专业知识和昂贵的生产流程。现有AIGC系统在特效生成领域面临重大挑战:特效专用数据稀缺,且超自然或风格化效果建模存在固有难度。此外,这些方法往往需要对每种特效进行微调,严重限制了其对新特效的扩展性与泛化能力。本文提出EffectMaker——一个基于参考视频实现特效定制的统一推理生成框架。该框架采用多模态大语言模型解析高级特效语义并推理其如何适配目标主体,同时利用扩散变换器通过上下文学习从参考视频中捕捉细粒度视觉线索。二者构成语义-视觉双路径引导机制,无需逐特效微调即可实现精准、可控且效果一致的生成。为进一步提升泛化性与扩展性,我们构建了EffectData数据集,这是目前规模最大的高质量合成数据集,涵盖3000种特效类别共计13万条视频。实验表明,EffectMaker在视觉质量与效果一致性上均优于现有先进基线,为定制化特效生成提供了可扩展的灵活范式。项目页面:https://effectmaker.github.io
基于流模型的视觉-语言-动作模型在具身控制任务中表现卓越,但多步采样过程中存在的难解似然问题阻碍了在线强化学习应用。我们提出\boldsymbol{π-StepNFT}(步进式负向感知微调),该框架无需价值网络辅助,仅需单次前向传播即可完成优化步骤,且摆脱了评论家与似然约束。研究发现,更广阔的探索空间需要更细粒度的步进式对齐指导。实验表明,π-StepNFT在LIBERO数据集上展现出具有竞争力的少样本鲁棒性,释放了模型潜在能力。此外,在ManiSkill任务中该方法实现了卓越的泛化性能,通过避免对多模态特征的过拟合,在分布外场景下超越了基于价值函数的基线模型。这一特性为复杂现实应用提供了可扩展的解决方案。
长文本建模是大语言模型的关键能力,然而注意力机制的二次复杂度仍是核心瓶颈,尤其在计算密集的预填充阶段。尽管已有多种稀疏注意力机制被提出,但它们通常面临搜索延迟过高或稀疏度不足的问题。本文提出FlashPrefill框架,通过瞬时模式发现与阈值化实现超高速预填充。该框架采用快速分块搜索技术,能同时定位动态的垂直、斜向和分块稀疏注意力模式。其关键在于引入动态阈值机制,在避免排序或注意力分数累加的高昂开销的同时,有效消除长尾分布以提升稀疏度。大量实验表明,FlashPrefill实现了效率的跨越式提升,在256K序列长度上达到27.78倍的加速比。值得注意的是,与现有方法在短上下文场景出现性能衰减不同,FlashPrefill即使在4K上下文长度仍保持1.71倍加速,展现了其在不同序列尺度下的鲁棒性与实用价值。
随着大型语言模型(LLM)在能力、成本和应用领域的快速分化,推理阶段的智能模型选择已成为关键需求。常规查询可由轻量级模型处理,而复杂任务则需要调用更强能力的模型。然而,静态模型部署无法适应动态请求的复杂度和领域特性,导致性能欠佳与成本攀升。基于查询特征的自适应动态路由系统应运而生,成为解决这一挑战的关键路径。 本文系统分析了当前最前沿的多LLM路由与级联技术。区别于混合专家架构在单一模型内部进行路由的模式,我们聚焦于跨独立训练LLM的路由机制。研究涵盖多样化路由范式,包括查询难度评估、人类偏好匹配、聚类分析、不确定性量化、强化学习、多模态路由及级联调度。针对每种范式,我们解析代表性方法并剖析其核心权衡关系。在分类框架之外,我们提出三维度概念框架:从决策时机(when)、信息依据(what)到计算方式(how)刻画路由系统特性。该视角揭示实际系统往往在操作约束下融合多种范式,形成复合型架构。 研究表明,有效的多LLM路由需平衡多重竞争目标。最优路由策略的选择取决于部署环境与计算约束。精心设计的路由系统通过战略性调度不同模型的专长能力,在最大化效率增益的同时,其综合表现甚至可超越单体最强模型。当前该领域仍存在重要挑战,包括开发能跨架构、跨模态、跨应用泛化的路由机制等。
演示文稿生成需要深入的内容研究、连贯的视觉设计以及基于观察的迭代优化。然而现有演示生成工具通常依赖预定义流程和固定模板。为此,我们提出DeepPresenter——一种能适应用户多样化意图、支持有效反馈驱动优化、并突破脚本化流水线局限的智能框架。该框架通过自主规划、渲染和修订中间幻灯片成果物,实现基于环境观察的长周期优化。与依赖内部信号(如推理轨迹)的自我反思不同,我们的环境锚定式反思将生成过程置于可感知的成果物状态(如已渲染幻灯片)之上,使系统能在执行过程中识别并修正演示文稿特有的问题。在涵盖多样化演示场景的评估集上,DeepPresenter实现了最先进的性能,且经过微调的90亿参数模型在显著降低成本的同时仍保持强劲竞争力。项目地址:https://github.com/icip-cas/PPTAgent
基于扩散的世界模型已展现出统一世界仿真的强大潜力,但迭代去噪过程的计算成本仍过高,难以支持交互式应用与长周期推演。虽然特征缓存技术可在无需训练的情况下加速推理,但我们发现:由于世界模型特有的两大障碍——多模态耦合与空间变异导致的令牌异质性,以及由少量难预测令牌驱动误差增长的非均匀时间动态特性,传统面向单模态扩散的策略移植效果不佳。为此,我们提出专为扩散世界模型设计的缓存框架WorldCache。我们引入曲率引导的异质令牌预测技术,通过基于物理原理的曲率评分估计令牌可预测性,并对方向突变的混沌令牌采用埃尔米特引导的阻尼预测器。同时设计混沌优先的自适应跳帧机制,通过累积曲率归一化的无量纲漂移信号,仅在瓶颈令牌开始漂移时重新计算。在扩散世界模型上的实验表明,WorldCache在保持98%推演质量的同时,可实现最高3.7倍的端到端加速,彰显了该框架在资源受限场景下的巨大优势与实用性。代码已发布于https://github.com/FofGofx/WorldCache。
计算机辅助设计(CAD)依赖于结构化且可编辑的几何表示,然而现有生成方法受限于带有显式设计历史或边界表示(BRep)标注的小规模标注数据集。与此同时,数百万未标注的三维网格数据尚未被开发利用,制约了可扩展CAD生成技术的进展。为此,我们提出DreamCAD——一个多模态生成框架,能够通过点级监督直接生成可编辑的BRep模型,无需任何CAD专用标注。DreamCAD将每个BRep表示为参数化曲面片(如贝塞尔曲面)的集合,并采用可微分细分方法生成网格,从而在三维数据集上实现大规模训练的同时重建连通且可编辑的曲面。此外,我们推出了迄今最大的CAD描述数据集CADCap-1M,其中包含利用GPT-5生成的超100万条描述文本,以推进文本到CAD的研究。DreamCAD在ABC和Objaverse基准测试中针对文本、图像和点云模态均达到最先进性能,其几何保真度显著提升,用户偏好度超过75%。代码与数据集将公开提供。
会话智能体正日益广泛地应用于知识密集型场景,其正确行为依赖于在与用户实时交互过程中,从大规模、专有且非结构化的语料库中检索并应用领域特定知识。然而现有基准测试大多独立评估检索功能或工具使用能力,导致缺乏针对长周期交互中非结构化数据的现实性全智能体评估体系。我们推出τ-Knowledge——作为τ-Bench的扩展框架,专门用于评估智能体在需要协调外部自然语言知识与工具输出以产生可验证、符合策略的状态变更的环境中的表现。新构建的τ-Banking领域模拟了现实中的金融科技客服工作流,要求智能体在执行工具介导的账户更新操作时,精准导航约700份相互关联的知识文档。实验表明,无论是基于嵌入向量的检索还是终端搜索,即便配备高推理预算的前沿模型也仅能达到25.5%的通过率¹,且可靠性在重复试验中急剧下降。智能体难以从高度互联的知识库中准确检索文档,也无法对复杂内部策略进行精确推理。总体而言,τ-Knowledge为开发面向人类部署场景、能整合非结构化知识的智能体提供了现实性测试平台。
训练神经偏微分方程求解器常受限于昂贵的数据生成成本,或由于高阶导数导致优化空间复杂而难以稳定的物理信息神经网络。为解决该问题,我们提出一种基于蒙特卡洛方法的替代方案,通过将偏微分方程解估计为随机过程,在训练过程中实施弱监督。利用球面行走算法,我们提出名为球面行走神经算子(WoS-NO)的学习框架,通过WoS提供的弱监督来训练任意给定的神经算子。该方法通过WoS算法的随机表示,将蒙特卡洛游走的成本分摊到偏微分方程实例分布中,在训练过程中生成廉价且含噪声的偏微分方程解估计。这一思路被形式化为无需数据的物理信息优化目标,通过训练神经算子回归这些弱监督信号,使其能够学习整个偏微分方程族的广义解映射。该策略无需昂贵的预计算数据集,避免了内存密集且不稳定的高阶导数损失计算,并展现出对新偏微分方程参数和领域的零样本泛化能力。实验表明,在相同训练步数下,相较于标准物理信息训练方案,本方法在L2误差上最高提升8.75倍,训练速度最高提升6.31倍,GPU内存消耗最高降低2.97倍。代码已发布于https://github.com/neuraloperator/WoS-NO。
随着大语言模型推理时计算资源的扩展,其推理能力实现了前所未有的突破。然而,现有的推理时扩展方法通常依赖低效次优的离散搜索算法或试错式提示策略来改进在线决策机制。本文提出nabla-Reasoner——一种迭代生成框架,该框架通过将基于词元逻辑的可微分优化融入解码循环,实现策略的动态优化。其核心组件可微分文本优化通过融合大语言模型似然度与奖励模型的梯度信号,对文本表征进行精细化调整。该框架进一步结合拒绝采样与加速设计,以增强解码鲁棒性并提升效率。理论分析表明,在样本空间执行推理时梯度下降以最大化奖励的行为,与通过KL正则化强化学习对齐大语言模型策略具有对偶性。实验证明,在具有挑战性的数学推理基准测试中,nabla-Reasoner实现了超过20%的准确率提升,同时相较于强基线方法减少了约10-40%的模型调用次数。本研究实现了从零阶搜索到一阶优化的范式转变,为增强大语言模型推理能力提供了高性价比的技术路径。
群体相对策略优化(GRPO)对后训练自回归语言模型效果显著,但直接应用于扩散大语言模型时易引发奖励崩溃。我们发现存在两个不兼容根源:首先,GRPO依赖基于序列概率定义的重要性比率,而该比率在扩散大语言模型中难以精确计算,需通过ELBO或平均场似然代理等方法进行估计,导致比率存在固有噪声;其次,标准GRPO的公式设计未考虑估计比率——其条件裁剪机制可能被与模型无关的估计噪声异常绕过,产生梯度尖峰,而固定组大小的归一化操作会在高方差比率估计下放大梯度幅度波动。我们证明这些效应会形成自我强化的不稳定循环,加剧策略漂移并进一步增加比率方差。为打破此循环,我们提出StableDRL——专为扩散大语言模型重构的GRPO方法,采用(i)无条件裁剪抑制异常值引发的梯度尖峰,(ii)自归一化将更新约束在每样本梯度的凸包内。此外,我们通过阶梯注意力机制将StableDRL扩展至块状扩散模型。
大型语言模型有时会产生虚假或误导性回答。针对此问题存在两种解决路径:诚实性诱导——通过修改提示词或权重使模型如实作答,以及谎言检测——对特定回答进行真伪分类。现有研究通常在专门训练用于撒谎或隐藏信息的模型上评估这些方法,但这类人为构造场景可能无法反映自然发生的欺骗行为。我们转而研究中国开发者发布的开源权重LLM,这些模型被训练用于审查政治敏感话题:以Qwen3系列模型为例,其经常就法轮功或天安门抗议等主题输出虚假信息,但偶尔会给出正确答案,表明它们实际掌握着被训练压制的内容。以此为测试平台,我们系统评估了多种诱导与谎言检测技术。在诚实性诱导方面,不使用对话模板的采样法、少样本提示以及在通用诚实性数据上的微调最能稳定提升真实回答率。对于谎言检测,直接让受审查模型对其自身回答进行分类的表现接近未审查模型的上界,而基于无关数据训练的线性探针则提供了更经济的替代方案。最强的诚实性诱导技术还能迁移至包括DeepSeek R1在内的前沿开源权重模型。值得注意的是,尚无任何技术能完全消除虚假回答。我们已公开全部提示词、代码及对话记录。
我们提出PixARMesh方法,能够从单张RGB图像自回归地重建完整三维室内场景网格。与依赖隐式符号距离场和事后布局优化的现有方法不同,PixARMesh通过统一模型联合预测物体布局与几何结构,在单次前向传播中即可生成连贯且达到美术级标准的网格。基于网格生成模型的最新进展,我们通过跨注意力机制将像素对齐的图像特征与全局场景上下文融入点云编码器,从而实现了单图像精准空间推理。场景通过包含上下文、位姿和网格的统一标记流自回归生成,最终产出具有高保真几何结构的紧凑网格。在合成数据集和真实数据集上的实验表明,PixARMesh在重建质量上达到业界最优水平,同时生成可直接用于下游应用的轻量化高质量网格。
离线目标条件强化学习(GCRL)通过静态预收集数据集学习目标条件策略。然而,由于状态-动作空间的有限覆盖,精确的价值估计仍面临挑战。近期物理启发方法尝试通过在一阶偏微分方程(如程函方程)上定义正则化项,对价值函数施加物理和几何约束以解决该问题。但这些公式在复杂高维环境中往往不适定。本研究提出一种基于汉密尔顿-雅可比-贝尔曼(HJB)方程粘性解的物理启发正则化方法。通过引入物理驱动的归纳偏置,我们的方法将学习过程锚定在最优控制理论中,显式规范并限制价值迭代中的更新幅度。进一步地,我们利用费曼-卡茨定理将偏微分方程解重构为期望形式,实现了目标的蒙特卡洛估计,避免了高阶梯度中的数值不稳定问题。实验表明,该方法能有效提升几何一致性,可广泛应用于导航任务及高维复杂操作任务。开源代码详见:https://github.com/HrishikeshVish/phys-fk-value-GCRL。
针对多样化退化条件下的图像复原任务,统一的全能框架常因特征干扰与专家专业性不足而面临挑战。我们提出SLER-IR框架——一种球面分层专家路由机制,通过动态激活网络各层的专用专家模块实现精准复原。为确保路由可靠性,我们引入基于对比学习的球面均匀退化嵌入技术,将退化表征映射至超球面空间,从而消除线性嵌入空间的几何偏差。此外,全局-局部粒度融合(GLGF)模块通过整合全局语义与局部退化线索,有效解决空间非均匀退化问题与训练-测试粒度差异。在三任务与五任务基准测试上的实验表明,SLER-IR在PSNR与SSIM指标上均较现有最优方法取得持续提升。代码与模型将公开发布。
动作空间的设定在基于模仿的机器人操作策略学习中具有决定性作用,它从根本上塑造了策略学习的优化空间。尽管近期研究重点集中在扩展训练数据和模型容量上,动作空间的选择仍依赖于经验性启发或传统设计,导致对机器人策略设计理念的理解存在模糊性。为厘清这一模糊地带,我们开展了大规模系统性实证研究,证实动作空间确实对机器人策略学习存在显著且复杂的影响。我们沿时间和空间维度解构动作设计空间,从而结构化分析这些选择如何影响策略可学习性和控制稳定性。通过在双手机器人上执行13,000余次实体部署实验,并对四类场景中500多个训练模型进行评估,我们对比了绝对动作与增量动作表征、关节空间与任务空间参数化的优劣。大规模实验结果表明:采用预测增量动作的策略设计能持续提升性能,而关节空间与任务空间表征具有互补优势——前者利于控制稳定性,后者则更有利于泛化能力。
指令遵循能力是大语言模型(LLM)的基础能力,其提升依赖于评估模型提供的可扩展且精准的反馈。然而,由于现有元评估基准存在数据覆盖不足、评估范式过度简化导致与模型优化场景失配等缺陷,当前评估模型在指令遵循任务中的可靠性仍待深入探究。为此,我们提出IF-RewardBench——一个覆盖多样化指令类型与约束条件的指令遵循元评估基准。针对每条指令,我们基于指令遵循质量构建包含多个响应间完整两两偏好的偏好图。该设计实现了列表式评估范式,可检验评估模型对多个响应进行排序的能力,这对指导模型对齐至关重要。在IF-RewardBench上的大量实验表明,当前评估模型存在显著缺陷,且相较于现有基准,本基准与下游任务性能呈现更强的正相关性。代码与数据已开源:https://github.com/thu-coai/IF-RewardBench。
众所周知,变分自编码器的重建FID(rFID)与潜在扩散模型的生成FID(gFID)相关性较弱。我们提出插值FID(iFID)——rFID的一种简单变体,其与gFID表现出强相关性。具体而言,对于数据集中的每个样本,我们在潜在空间中检索其最近邻(NN),并对两者的潜在表示进行插值。随后对插值后的潜在表示进行解码,并计算解码样本与原始数据集之间的FID值。此外,我们通过证明rFID与扩散精炼阶段的样本质量相关,而iFID与扩散导航阶段的样本质量相关,进一步细化了关于rFID与gFID相关性弱的论断。通过联系扩散泛化与幻觉的相关研究成果,我们还解释了iFID与gFID强相关的原因,以及重建类指标为何与gFID呈负相关。实验表明,iFID是首个与扩散gFID呈现强相关性的指标,其皮尔逊线性相关与斯皮尔曼秩相关系数均达到约0.85。源代码已发布于https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID。
要充分释放视觉丰富文档的潜力,检索系统需突破单纯文本理解,掌握复杂版式结构——这正是视觉文档检索(VDR)的核心挑战。主流多向量架构虽功能强大,却面临关键的存储瓶颈:现有优化策略(如嵌入合并、剪枝或抽象标记)在保持性能不损失且不忽略关键版式线索的前提下均无法解决此问题。为此,我们提出ColParse新范式,通过文档解析模型生成少量具备版式感知的子图像嵌入,再与全局页面级向量融合,形成紧凑且结构敏感的多向量表示。大量实验表明,该方法在多个基准测试和基础模型上实现存储需求降低95%以上的同时,还带来显著性能提升。ColParse由此弥合了多向量检索的细粒度精度与大规模部署实际需求之间的关键鸿沟,为构建高效可解释的多模态信息系统开辟了新路径。
近期研究发现,基础模型的中间层往往能产生比最终层更具判别性的表征。虽然这一现象最初被归因于自回归预训练,但后续在通过监督学习和判别性自监督目标训练的模型中也得到了验证。本文对预训练视觉Transformer中中间层的行为展开了系统性研究。通过在多样化图像分类基准上进行大量线性探针实验,我们发现预训练数据与下游数据之间的分布偏移是导致深层性能下降的主要原因。此外,我们在模块层面进行了细粒度分析,结果表明:对Transformer块输出进行标准探针并非最优方案;在显著分布偏移情况下,前馈网络内部的激活值探针能获得最佳性能,而当分布偏移较弱时,多头自注意力模块的归一化输出则表现最优。