每日精选AI研究论文及翻译
杰出科学家具备卓越的判断力与前瞻性,这与我们所说的科学品味密切相关。在此,我们将科学品味定义为对具有高潜在影响力的研究思路进行判断和提出的能力。然而,现有研究多聚焦于提升AI科学家的执行能力,如何增强AI的科学品味仍属探索不足的领域。本研究提出基于群体反馈的强化学习框架(RLCF),利用大规模群体信号作为监督信号,将科学品味学习构建为偏好建模与对齐问题。在偏好建模方面,我们基于70万个同领域同时期的高被引与低被引论文对训练"科学评审官"模型,使其具备研究思路的评判能力。在偏好对齐阶段,以科学评审官作为奖励模型,我们训练"科学思考者"策略模型来提出具有高潜在影响力的研究思路。实验表明,科学评审官在性能上超越主流大语言模型(如GPT-5.2、Gemini 3 Pro),并能泛化至未来年份测试、未知领域及同行评审偏好。此外,科学思考者提出的研究思路比基线模型具有更高潜在影响力。我们的研究证明AI能够习得科学品味,这标志着向人类水平AI科学家迈进的关键一步。
我们提出HSImul3R,一个面向仿真应用的三维人-场景交互重建统一框架,支持从稀疏视角图像和单目视频等非专业采集数据中实现即用型重建。现有方法存在感知与仿真的脱节:视觉上合理的重建结果常违反物理约束,导致物理引擎中的不稳定现象及具身智能应用失效。为弥合这一差距,我们引入基于物理的双向优化流程,将物理仿真器作为主动监督器,联合优化人体动力学与场景几何。在正向过程中,采用场景导向强化学习技术,在运动保真度与接触稳定性的双重监督下优化人体运动。在逆向过程中,提出直接仿真奖励优化方法,利用重力稳定性和交互成功率的仿真反馈来优化场景几何。我们还推出HSIBench新基准数据集,涵盖多样化物体与交互场景。大量实验表明,HSImul3R首次实现了稳定可仿真的人-场景交互重建,并能直接部署于真实人形机器人平台。
深度搜索能力已成为前沿大语言模型智能体不可或缺的核心竞争力,但由于缺乏透明、高质量的训练数据,高性能搜索智能体的开发仍由行业巨头主导。这种持续存在的数据短缺问题从根本上阻碍了更广泛的研究界在该领域的开发与创新进程。为弥合这一鸿沟,我们推出首个完全开源的搜索智能体OpenSeeker(即模型与数据全开源),通过两项核心技术突破实现前沿性能:(1) 基于事实的可扩展可控问答合成技术,通过拓扑扩展和实体混淆逆向解析网络图谱,生成覆盖范围与复杂度可控的复杂多跳推理任务;(2) 去噪轨迹合成技术,采用回溯式摘要机制对交互轨迹进行降噪处理,从而引导教师大模型生成高质量动作。实验结果表明,仅使用1.17万条合成样本进行单次训练的OpenSeeker,在BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch等多个基准测试中均达到最先进性能。值得注意的是,通过简单监督微调训练的OpenSeeker显著优于第二名的全开源智能体DeepDive(如在BrowseComp上以29.5%对比15.3%),甚至在BrowseComp-ZH基准上超越通义深度研究等工业级竞品(48.4%对比46.7%),后者采用了持续预训练、监督微调与强化学习的复合训练流程。我们完整开源全部训练数据集与模型权重,以推动前沿搜索智能体研究的民主化,构建更透明、协作的科研生态。
大型语言模型正从被动信息提供者转变为面向复杂工作流的主动智能体。然而,其在企业环境中作为可靠AI工作者的部署进程,因现有基准测试无法捕捉专业环境的复杂性而受阻——特别是面对持续状态变化和严格访问协议时所需的长期规划能力。本研究推出EnterpriseOps-Gym基准测试,专为评估真实企业环境中的智能体规划能力而设计。该测试平台采用容器化沙箱架构,包含164张数据库表和512个功能工具,以模拟真实场景中的检索摩擦。在此环境中,智能体需完成涵盖客户服务、人力资源、信息技术等八大关键业务领域的1,150项专家级任务评估。我们对14款前沿模型的测试揭示了当前技术的显著局限:表现最佳的Claude Opus 4.5模型成功率仅为37.4%。进一步分析表明,提供人工预设方案可使性能提升14-35个百分点,这凸显战略推理能力是主要瓶颈。此外,智能体对不可行任务的拒绝能力普遍不足(最佳模型仅达53.9%),易导致意外且可能有害的副作用。我们的研究证实当前智能体尚未具备自主部署至企业环境的能力。总体而言,EnterpriseOps-Gym为提升专业工作流中智能体规划的鲁棒性提供了具体测试平台。
倘若一个世界模拟模型能够渲染的不是虚构环境,而是真实存在的城市呢?现有生成式世界模型通过想象所有内容来合成视觉逼真但人工构建的环境。我们提出首尔世界模型(SWM),这是一个以真实首尔市为基础构建的城市级世界模型。SWM通过检索增强机制,利用邻近街景图像进行自回归视频生成锚定。然而这种设计带来多重挑战:检索参考帧与动态目标场景间存在时序错位、车载摄像头稀疏采集导致的轨迹多样性受限及数据稀疏性。我们通过跨时序配对技术、支持多样化相机轨迹的大规模合成数据集,以及从稀疏街景图像生成连贯训练视频的视角插值流程应对这些挑战。我们还引入虚拟前瞻锚定机制,通过持续将每个视频片段重新锚定至未来位置的检索图像,稳定生成长时序内容。我们在首尔、釜山和安娜堡三座城市将SWM与最新视频世界模型进行对比评估。SWM在生成空间精准、时序连贯的长序列视频方面优于现有方法,这些视频以真实城市环境为基础覆盖数百米轨迹,同时支持多样化相机运动与文本提示的场景变化。
在现代大语言模型中,带前置归一化的残差连接已成为标准配置,但其采用固定单位权重累加所有层输出的方式,会导致隐藏状态随深度增长失控,逐渐稀释各层的贡献度。我们提出注意力残差(AttnRes)机制,通过基于前置层输出的软注意力替代固定累加,使每层能够根据学习到的输入依赖权重选择性聚合先前表征。为应对大规模模型训练中全量层输出注意力带来的内存与通信开销,我们进一步提出分块注意力残差(Block AttnRes),将网络层划分为多个块并对块级表征进行注意力计算,在保留全量AttnRes大部分优势的同时显著降低内存占用。结合基于缓存的流水线通信与两阶段计算策略,Block AttnRes可作为标准残差连接的高效替代方案,实现近乎零开销的即插即用。 缩放定律实验证实该改进在不同模型规模下均保持一致性,消融研究验证了内容依赖型深度选择机制的有效性。我们将AttnRes集成至Kimi Linear架构(总参数量480亿/激活参数量30亿),并在1.4万亿token上进行预训练。结果表明AttnRes有效缓解了前置归一化的稀释效应,使各深度层的输出幅度与梯度分布更趋均匀,并在所有评估任务中均提升了下游性能。
增加网络深度是推动大语言模型(LLMs)发展的关键驱动力。然而,随着模型深度的增加,信号衰减问题日益凸显:浅层形成的特征信息在连续残差更新过程中逐渐被稀释,导致深层网络难以有效捕捉这些特征。我们提出混合深度注意力机制(MoDA),该机制允许每个注意力头同时关注当前层的序列键值对和来自前面各层的深度键值对。我们还设计了一种硬件友好的MoDA算法,通过解决非连续内存访问模式问题,在64K序列长度下达到了FlashAttention-2 97.3%的运行效率。在15亿参数模型上的实验表明,MoDA始终优于现有基线方法:在10个验证基准上平均困惑度降低0.2,在10个下游任务中平均性能提升2.11%,而计算开销仅增加3.7%的FLOPs。同时发现MoDA与后归一化结合使用比与前归一化搭配能获得更优性能。这些结果表明MoDA是实现深度扩展的有效模块。代码已开源:https://github.com/hustvl/MoDA。
当前已有大量研究尝试将基于二次注意力的预训练大语言模型(LLM)蒸馏为次二次线性化架构。然而尽管研究广泛,此类蒸馏模型在各类下游任务中仍难以达到教师LLM的性能水平。我们设定了无损蒸馏的目标,并通过师生模型在任务集上的容差校正胜平率来定义该目标。为此,我们针对基于xLSTM的学生模型提出了一套高效蒸馏流程,创新性地引入了专家合并阶段——将独立线性化的专家模型整合为单一模型。通过蒸馏Llama、Qwen和Olmo系列的基础模型与指令微调模型,我们验证了该流程的有效性。实验表明,基于xLSTM的学生模型在多数场景下能复现教师模型绝大部分性能,甚至在某些下游任务实现反超。我们的研究成果为取代基于Transformer的LLM提供了更节能、更经济的重要路径。
视觉语言模型(VLMs)常出现"幻觉"现象——生成看似合理但事实错误的陈述,这对其可信部署构成关键障碍。本研究提出一种诊断幻觉的新范式,将其从静态输出错误重新定义为模型计算认知的动态病理特征。我们的框架基于计算理性原则,将VLM的生成过程建模为动态认知轨迹。我们设计了一套信息论探针,将该轨迹投影至可解释的低维认知状态空间。核心发现是名为"几何-信息对偶性"的支配原理:认知轨迹在空间中的几何异常性本质上等价于其高信息论惊异值。幻觉检测由此转化为几何异常检测问题。在多样化场景下的评估——从严谨的二元问答(POPE)和综合推理(MME)到无约束开放描述(MS-COCO)——表明本框架实现了最先进性能。关键的是,该方案在弱监督下高效运行,即使校准数据严重污染仍保持强鲁棒性。该方法支持对故障进行因果归因,将可观测错误映射至不同病理状态:感知不稳定性(通过感知熵度量)、逻辑因果失效(通过推理冲突度量)以及决策模糊性(通过决策熵度量)。这最终为构建具有透明、可审计、可诊断特性的AI系统开辟了新路径。
扩散变换器(DiTs)在图像和视频生成领域展现出卓越的可扩展性与生成质量,这促使研究者日益关注其向可控生成与编辑任务的拓展。然而相较于图像领域,视频控制与编辑的进展仍相对有限,主要受限于配对视频数据的稀缺性以及视频扩散模型训练的高计算成本。为解决此问题,本文提出一种无需视频数据的调优框架ViFeEdit,专门针对视频扩散变换器设计。该框架无需任何形式的视频训练数据,仅通过二维图像适配即可实现多样化的视频生成与编辑功能。我们的方法核心在于架构重参数化技术,该技术将现代视频扩散变换器中完整的三维注意力机制解耦为空间独立计算,从而在仅增加极少参量的前提下,既能保持视觉保真度又能确保时序一致性。此外,该设计采用双路径流水线架构,配备独立的噪声调度时间步嵌入,展现出对多样化条件信号的强适应性。大量实验表明,仅通过对二维图像数据进行极简训练,我们的方法即可实现令人满意的可控视频生成与编辑效果。代码已开源:https://github.com/Lexie-YU/ViFeEdit。
训练自主网络智能体的根本局限在于其学习环境:真实网站存在探索风险、难以重置且鲜少提供可验证反馈。我们提出VeriEnv框架,将语言模型作为环境生成器,自动将真实网站克隆为完全可执行、可验证的合成环境。通过Python SDK开放受控内部访问权限,VeriEnv使智能体能够自主生成任务并获得可编程验证的确定性奖励,摆脱对启发式或LLM评判器的依赖。该设计将智能体学习与不安全的真实交互解耦,同时通过环境扩展实现可扩展的自我进化。在网络智能体基准测试中,使用VeriEnv训练的智能体能够泛化至未见过的网站,通过自我进化训练实现站点专属精熟,并受益于训练环境数量的扩展。代码与资源将在论文录用后发布于https://github.com/kyle8581/VeriEnv。
针对从大语言模型提示优化到多轮智能体等复杂系统的优化问题,传统方法依赖高人工强度的迭代过程。我们将这一挑战形式化为随机生成式优化问题:通过生成式语言模型作为优化器,在数值奖励和文本反馈的引导下探索最优系统。本文提出具有局部上下文聚合的优先级优化框架(POLCA),该可扩展框架旨在处理优化过程中的随机性(如噪声反馈、小批量采样和随机系统行为),同时有效控制解空间的无限扩张。POLCA通过维护优先级队列来管理探索-利用权衡,系统化追踪候选解及其评估历史。为提升效率,我们集成ε-网络机制以保持参数多样性,并采用LLM摘要器实现历史试验的元学习。理论证明表明,POLCA在随机环境下能收敛至接近最优的候选解。我们在τ-bench、HotpotQA(智能体优化)、VeriBench(代码翻译)和KernelBench(CUDA内核生成)等多个基准测试中评估本框架。实验结果表明,POLCA在确定性与随机性问题中均能实现鲁棒、样本高效且时间高效的性能,持续超越现有最优算法。相关代码库已公开于https://github.com/rlx-lab/POLCA。
大型推理模型(LRMs)通过思维链(CoT)推理在复杂推理任务中表现出色,该机制使其能够在得出最终答案前生成中间思考标记。然而,LRMs常存在严重过度思考现象,即使在答案已提前生成后仍消耗过多计算时间。已有研究指出存在最优推理长度,在此节点截断推理可显著缩短CoT输出且几乎不影响性能。但由于最优CoT长度完全取决于具体任务和模型特性,针对实际数据集确定该长度极具挑战性。本文精准应对该问题,设计了推理阶段早期退出框架TERMINATOR以缓解过度思考。TERMINATOR的核心思想在于:LRM首次出现最终答案的时刻往往可预测,我们利用这些初始答案位置构建了最优推理长度的新型数据集来训练该框架。基于此方法,TERMINATOR在MATH-500、AIME 2025、HumanEval和GPQA四个高难度实际数据集上平均实现CoT长度14%-55%的显著缩减,同时性能超越当前最先进方法。
现有网页生成基准主要依赖文本提示或静态截图作为输入。然而视频天然蕴含更丰富的信号,如交互流程、转场时机与运动连续性,这些对精准还原网页至关重要。尽管存在这种潜力,基于视频条件的网页生成研究仍处于空白状态,缺乏专门针对该任务的评估基准。为此,我们推出WebVR基准,用于评估多模态大语言模型能否根据演示视频准确复现网页。WebVR涵盖175个跨领域网页样本,全部通过可控合成流程构建而非网络爬取,确保演示内容的多样性和真实性,且与现有在线页面无重叠。我们还设计了细粒度、符合人类偏好的视觉评估标准,从多维度对生成网页进行量化评价。在19个模型上的实验表明,现有系统在还原细粒度样式和动效质量方面存在显著差距,而基于量规的自动评估与人类偏好的吻合度达到96%。我们公开数据集、评估工具包及基线结果,以支持视频到网页生成领域的后续研究。
所有分类器(包括最先进的视觉模型)都具有不变性特征,这些特征部分源于其线性映射的几何结构。这些存在于分类器零空间中的不变性会诱导出映射到相同输出的等效输入集合。由于现有方法难以提供人类可解读的信息,这些不变性的语义内容始终模糊不清。为弥补这一空白,我们提出零空间几何语义解释方法(SING),该方法能构建相对于网络的等效图像,并为可用变化赋予语义解释。我们通过将网络特征映射到多模态视觉语言模型,从而获得自然语言描述和诱导语义转换的可视化示例。SING既可应用于单张图像以揭示局部不变性,也可应用于图像集,从而在类别和模型层面实现广泛的统计分析。例如,我们的方法表明ResNet50会将相关语义属性泄露至零空间,而基于自监督DINO预训练的视觉Transformer模型DinoViT,在保持不变空间中类别语义方面表现更优。
大型语言模型在推理过程中常表现出"顿悟时刻",例如在出现"等等"类标记后看似自我修正的现象,但其内在机制尚不明确。我们提出一种信息论框架,将推理分解为程序性信息与认知外化——即支撑下游控制行为的不确定性显性表达。研究表明,纯粹程序性推理会导致信息停滞,而认知外化能持续获取信息,对实现信息充分性至关重要。实证结果证实,强劲的推理性能源自不确定性外化过程,而非特定表层标记。该框架统一了关于顿悟时刻与训练后实验的既有发现,为未来推理模型设计提供了新视角。
动机是驱动人类行为的核心要素,它塑造着决策、目标和任务表现。随着大语言模型与人类偏好日益对齐,我们探究其是否展现出类似动机的特征。通过研究大语言模型是否"呈现"不同水平的动机、这些呈现如何关联其行为,以及外部因素能否对其产生影响,实验结果显示出一致且结构化的模式——这些模式与人类心理学遥相呼应:自我报告的动机水平与不同行为特征相契合,随任务类型变化,并能被外部干预调节。这些发现表明,动机是组织大语言模型行为的一贯性建构,系统性地联结了行为报告、任务选择、投入程度和表现水平,展现出与人类心理学记载相似的动机动态机制。该视角深化了我们对模型行为及其与人类启发式概念关联的理解。
尽管有效运动遵循结构化非欧几里得几何特性,人体运动生成技术通常仍在欧氏空间中进行学习。我们提出黎曼运动生成框架,该统一框架在乘积流形上表示运动,并通过黎曼流匹配学习动力学。RMG将运动分解为多个流形因子,生成具有内在归一化特性的无尺度表示,并采用测地线插值、切空间监督及流形保持常微分方程积分进行训练与采样。在HumanML3D数据集上,RMG以HumanML3D格式实现了最先进的FID指标(0.043),并在MotionStreamer格式下所有报告指标中排名第一。在MotionMillion数据集上,其表现亦超越强基线模型(FID 5.6,R@1 0.86)。消融实验表明,紧凑的T+R(平移+旋转)表示是最稳定有效的方案,印证了几何感知建模是实现高保真运动生成的实用且可扩展路径。
我们推出PokeAgent挑战赛——一个基于《宝可梦》多智能体对战系统与广阔角色扮演游戏(RPG)环境构建的大规模决策研究基准。部分可观测性、博弈论推理与长程规划仍是前沿人工智能亟待解决的问题,但现有基准鲜少能在真实场景下同时考验这三项能力。PokeAgent通过两个互补赛道规模化突破这些局限:对战赛道要求参与者在竞争性宝可梦对战中实现部分可观测条件下的战略推理与泛化能力;速通赛道则要求在宝可梦RPG中完成长程规划与序列决策。我们对战赛道提供超过2000万条对战轨迹数据集,以及具备高水平竞技能力的启发式、强化学习与基于大语言模型的基线系统;速通赛道首创RPG速通标准化评估框架,包含开源多智能体编排系统,可对基于封装器的大语言模型方法进行模块化、可复现的对比。NeurIPS 2025竞赛结果验证了我们资源的质量及研究社区对宝可梦的热情:超百支队伍参与双赛道角逐,获奖方案细节详见论文。参赛提交结果与基线系统表明,通用模型(大语言模型)、专用模型(强化学习)与人类顶尖水平存在显著差距。通过BenchPress评估矩阵分析显示,宝可梦对战能力与标准大语言模型基准近乎正交,可衡量现有测试集未覆盖的能力维度,使其成为能推动强化学习与大语言模型研究的未解基准。我们已将其转化为可持续更新的动态基准,提供对战实时排行榜与速通一体化评估平台,详见https://pokeagentchallenge.com。
基于强化学习的代码生成技术长期依赖单元测试通过率作为可验证奖励。然而高质量测试套件稀缺,现有数据集覆盖范围有限,且静态奖励机制难以适配模型能力的持续提升。近期自博弈方法虽将代码与测试生成统一于单一模型,却面临固有困境:白盒访问会导致模型通过生成简单测试获取奖励的自我共谋问题,而黑盒限制又只能产生无法捕捉实现特异性缺陷的通用测试。我们提出Code-A1对抗协同进化框架,通过联合优化目标对立的代码大模型与测试大模型实现突破。代码模型以获得更高测试通过率为奖励,测试模型则以暴露更多缺陷为目标。这种架构分离从根本上消除了自我共谋风险,使测试模型能安全采用白盒生成模式——通过检视候选代码来构造针对性对抗测试。我们进一步引入错题本机制实现经验回放,并设计平衡测试有效性与对抗难度的复合奖励函数。在Qwen2.5-Coder模型上的实验表明,Code-A1在代码生成性能上达到甚至超越基于人工标注测试训练的模型,同时显著提升了测试生成能力。
功能预测在具身人工智能中扮演着感知与行动的关键桥梁。然而现有研究局限于针孔相机模型,其存在视场角狭窄和观测碎片化的问题,常常丢失关键的整体环境上下文。本文首次探索全景功能预测,利用360度图像捕捉全局空间关系与整体场景理解。为推进这一新任务,我们首先提出PAP-12K大规模基准数据集,包含千余张超高分辨率(12k,11904×5952)全景图像,标注逾1.2万个精细问答对与功能掩码。进一步,受人类中央凹视觉系统启发,我们提出无需训练的由粗到精处理框架PAP,以应对全景图像固有的超高分辨率与严重畸变。该框架通过网格提示递归执行视觉路由逐步定位目标,采用自适应注视机制校正局部几何畸变,并利用级联定位管道提取精确的实例级掩码。在PAP-12K上的实验表明,专为标准透视图像设计的功能预测方法因全景视觉的独特挑战出现性能严重退化甚至失效。相比之下,PAP框架有效克服这些障碍,显著超越现有先进基线,彰显全景感知对构建鲁棒具身智能的巨大潜力。
多模态大语言模型(MLLMs)在独立评估时已展现出强大的视觉与听觉理解能力。然而,这些模型在长时复杂视频中联合推理全模态(视觉、听觉与文本)信号的能力仍待探索。我们推出MMOU基准测试,旨在系统评估此类现实挑战场景下的多模态理解与推理能力。该基准包含15,000道精心设计的问题,匹配9,038个从网络采集的时长各异的视频,覆盖多元领域并呈现丰富的紧密耦合型音视频内容。基准涵盖13项基础技能类别,所有任务均需跨模态、跨时间整合证据。所有问题均由专业标注人员通过多轮次人工标注,确保高质量与推理保真度。我们对20余个开源及商业多模态模型进行测试,结果揭示显著性能差距:最佳闭源模型准确率仅达64.2%,而最强开源模型仅为46.8%。研究结果凸显了长时全模态理解的挑战性,表明现有模型在长视频中甚至难以应用基础技能。通过细化分析,我们进一步识别出系统性故障模式,为当前模型的失效环节与原因提供洞见。
预训练大语言模型展现出广泛能力,但在特定任务或领域实现更高精度与更可靠推理,通常需通过监督微调或强化学习进行后训练。尽管这两种方法常被视为独立体系,最新理论与实证研究表明它们存在深刻关联。本研究提出关于监督微调与强化学习的统一视角,系统阐述大语言模型后训练框架。首先深入解析两种技术的目标函数、算法结构与数据需求,继而系统分析其相互作用,重点探讨融合监督微调与强化学习的集成框架、混合训练流程以及优势互补方法。基于2023至2025年间具代表性的应用研究,我们识别新兴趋势,刻画后训练范式向混合方法快速转型的特征,并提炼关键准则以阐明不同方法的适用场景与效能原理。通过整合理论洞见、实践方法与实证证据,本研究在统一框架内建立对监督微调与强化学习的连贯认知,为可扩展、高效率、强泛化的大语言模型后训练指明未来研究方向。
细粒度MoE的扩展定律表明,当中间维度粒度超过最优阈值后,模型性能将无法继续提升,这限制了单维度细粒度设计的增益空间。为突破此瓶颈,我们提出FineRMoE(双维度细粒度MoE)架构,将专家网络的细粒度设计扩展至中间维度和输出维度,旨在突破单维限制提升专家专业化程度。我们进一步引入双层级稀疏前向计算范式与专用路由机制来控制激活状态。此外,为避免从头训练FineRMoE的巨额成本,我们设计了一种广义升级再造方法,以经济高效的方式构建FineRMoE。大量实验证明,FineRMoE在十项标准基准测试中均取得卓越性能:相较于最强基线模型,FineRMoE实现了6倍的参数效率提升、281倍的前向计算延迟降低,以及推理过程中136倍的解码吞吐量提升。
随着文本和图像生成技术的重大突破,视频生成领域迅猛发展,已能产出高度逼真且可控的序列。然而这些模型的进步也引发了关于虚假信息的严重担忧,使得可靠检测合成视频变得愈发关键。基于图像的检测器存在根本局限——它们逐帧处理而忽略时序动态;有监督视频检测器则对未知生成器的泛化能力较差,这在新型模型快速涌现的背景下成为致命缺陷。这些挑战催生了零样本检测方法,其避免使用合成数据,转而通过比对真实数据统计特征进行内容评分,实现无需训练、与模型无关的检测。我们提出STALL检测器:一种简单无需训练、具有理论依据的方案,可在概率框架内联合建模时空特征,为视频提供基于似然度的评分。我们在两个公开基准上评估STALL,并推出包含前沿生成模型的新基准ComGenVid。实验表明STALL持续优于现有图像与视频基线方法。代码与数据详见https://omerbenhayun.github.io/stall-video。
单图像重照明是一个高度欠约束的问题:微小的光照变化会导致阴影、高光和反射产生巨大的非线性变化,而几何形状与材质属性却无法直接观测。现有基于扩散模型的方法要么依赖需要密集且脆弱监督的本征分解或G缓冲管线,要么仅在隐空间运行而缺乏物理基础,导致对光照方向、强度和色彩的细粒度控制不可靠。我们发现,精确重照明并不需要完整的本征分解。相反,稀疏但具有物理意义的提示——指示光照应如何变化以及材质应如何响应——足以指导扩散模型。基于此,我们提出LightCtrl框架,通过双层物理先验实现控制:采用少样本隐式代理编码器从有限PBR监督中提取紧凑的材质-几何线索,结合光照感知掩码识别敏感照明区域并引导去噪器关注着色相关像素。为弥补PBR数据稀缺性,我们采用基于DPO的目标函数优化代理分支,确保预测线索的物理一致性。同时发布ScaLight数据集——一个包含系统化光照变化及完整相机-光源元数据的大规模物体级数据集,支持物理一致的可控训练。在物体与场景级基准测试中,本方法实现了光度保真的重照明效果,具备精确的连续控制能力,在可控光照变换下PSNR指标最高提升2.4 dB,RMSE降低35%,显著超越现有扩散模型与本征分解基线。
遥感世界模型旨在同时解释观测到的变化并预测合理的未来场景,这两项任务共享时空先验。然而现有方法通常将二者割裂处理,限制了跨任务迁移能力。我们提出RS-WorldModel——一个统一的遥感世界模型,能够协同处理时空变化理解与文本引导的未来场景预测,并构建了包含110万样本的RSWBench-1.1M数据集,该数据集具有覆盖双任务的丰富语言标注。RS-WorldModel采用三阶段训练框架:(1)地理感知生成预训练通过地理和采集元数据约束预测条件;(2)协同指令微调对理解与预测任务进行联合训练;(3)可验证强化优化通过可验证的任务特定奖励微调输出。该模型仅需20亿参数,在多数时空变化问答指标上超越参数量达120倍的开源模型,文本引导未来场景预测的FID指标达43.13,优于所有开源基线及闭源的Gemini-2.5-Flash Image(Nano Banana)模型。
人工智能能否在重要的未解数学问题上取得突破?当前大语言模型已具备复杂的数学与科学推理能力,但其是否能够开展创新性研究仍存在广泛争议且探索不足。我们推出HorizonMath基准测试,涵盖计算数学与应用数学8大领域的100多个未解难题,并配套开源评估框架以实现自动化验证。该基准聚焦于"发现困难但验证高效"的问题类型——这类问题需要深刻的数学洞察力,但验证过程计算效率高且方法简洁。由于所有问题均无现成答案,HorizonMath能有效避免数据污染,目前最先进模型的得分普遍接近0%。现有研究级基准依赖形式化证明验证或人工评审,两者均难以规模化扩展。通过该平台,我们发现GPT 5.4 Pro针对两个问题提出的解决方案优于已知最佳公开结果,可能构成数学文献中的创新贡献(待专家评审)。我们将HorizonMath作为开放挑战和持续增长的社区资源发布,对未解问题类的正确解答有望成为数学领域的新颖成果。
视频推理要求模型在连续帧中定位并追踪与问题相关的证据。虽然采用可验证奖励的强化学习(RL)能够提升准确性,但在推理过程中仍难以实现可靠的时空定位。此外,改进定位能力通常依赖于扩大训练数据规模或使用推理时的感知工具,这会增加标注成本或计算开销。为解决这一挑战,我们提出VisonCoach框架——一种输入自适应的强化学习方法,通过视觉提示作为训练时指导来提升时空定位能力。在强化学习训练过程中,视觉提示会针对具有挑战性的输入选择性激活,以增强问题相关证据并抑制干扰信息。随后模型通过自蒸馏机制内化这些改进,从而在推理时无需视觉提示即可直接对原始视频进行 grounded 推理。VisonCoach包含两个核心组件:(1)视觉提示选择器,根据视频和问题内容预测适用的提示类型;(2)时空推理器,在视觉提示引导及对象感知定位奖励的优化下进行强化学习,该奖励机制通过保持对象身份一致性和多区域边界框重叠来强化定位效果。大量实验表明,在多种视频推理、视频理解和时序定位基准(V-STAR、VideoMME、World-Sense、VideoMMMU、PerceptionTest 和 Charades-STA)上,VisonCoach在可比设置下均达到最先进性能,同时保持单一高效推理路径且无需外部工具。我们的研究证明,训练阶段的视觉提示能有效提升视频推理的定位能力,而自蒸馏技术可使模型在不依赖推理时提示的情况下内化这种能力。
轨迹可控视频生成技术近期取得显著进展。现有方法主要采用基于适配器的架构,通过预设轨迹实现精确运动控制。然而,这些方法均依赖多步去噪过程,导致显著的时间冗余和计算开销。虽然现有视频蒸馏技术能成功将多步生成器压缩为少步模型,但直接应用于轨迹可控视频生成会导致视频质量与轨迹精度明显下降。为弥补这一差距,我们提出FlashMotion——一种专为少步轨迹可控视频生成设计的新型训练框架。我们首先在多步视频生成器上训练轨迹适配器以实现精确轨迹控制,随后将生成器蒸馏为少步版本以加速视频生成,最后采用融合扩散目标与对抗目标的混合策略对适配器进行微调,使其与少步生成器协同生成高质量、高轨迹精度的视频。为进行评估,我们构建了FlashBench基准测试集,该基准通过可变数量前景物体来衡量长序列轨迹可控视频生成的视频质量与轨迹精度。在两种适配器架构上的实验表明,FlashMotion在视觉质量与轨迹一致性方面均优于现有视频蒸馏方法及传统多步模型。
近期研究表明,大型语言模型(LLMs)存在深度诅咒现象:深层网络对学习和表征的贡献度低于浅层。这种利用不足问题与预层归一化中方差累积增长有关,其会使深层模块趋近恒等映射行为。本文论证了稀疏性不仅能提升效率,还可作为方差传播的调节器,从而改善深度利用率。我们探究了两种稀疏性来源:(i)隐式稀疏性,产生于训练与数据条件,包括权重衰减诱导的权重稀疏性和长上下文输入诱导的注意力稀疏性;(ii)显式稀疏性,通过架构设计实现,包括分组查询注意力中的键/值共享稀疏性和混合专家模型中的专家激活稀疏性。通过受控的深度扩展实验和定向层效能干预,我们的主张获得了充分验证。在所有设置中,我们观察到一致规律:稀疏性通过降低输出方差和促进功能分化来提升层利用率。最终我们将研究结果提炼为可实践的深度高效LLMs训练经验法则,在下游任务中实现了4.6%的显著准确率提升。本研究揭示出稀疏性——这一源于标准设计选择却长期被忽视的机制——是实现LLMs有效深度扩展的关键因素。代码已开源:https://github.com/pUmpKin-Co/SparsityAndCoD。
具身智能体日益需要在不同时间约束下,从共享观测中并行执行多项任务(如操作、对话和记忆构建)。近期混合Transformer架构的视觉-语言-动作模型在结构上支持此类异构输出,但由于计算冗余和资源竞争,现有推理系统难以实现高效的多任务并行以支持设备端部署。我们发现孤立的KV缓存管理是问题根源。为此提出统一KV缓存管理范式,将KV缓存作为跨任务、跨时序的一级共享资源。该抽象实现两大优化:跨任务KV共享消除共享观测的冗余预填充,而跨帧连续批处理将可变长度语言解码与固定频率的动作生成在控制周期内解耦。我们在最流行的混合Transformer VLA模型π_{0.5}上实现该范式,并在典型机器人配置下评估。OxyGen相比孤立执行最高可实现3.7倍加速,在保持动作质量的同时,同时实现超过200词元/秒的语言吞吐量和70赫兹的动作频率。
生成精确的视觉文本渲染字形至关重要却充满挑战。现有方法通常通过大量高质量场景文本图像训练来增强文本渲染效果,但字形变体覆盖有限和过度风格化往往会损害字形准确性,尤其对复杂或超域字符更为明显。部分方法采用强化学习缓解此问题,但其奖励模型通常依赖对细粒度字形错误不敏感的文本识别系统,导致含错误字形的图像仍可能获得高奖励。受直接偏好优化(DPO)启发,我们提出基于偏好的文本渲染方法GlyphPrinter,该方法无需显式奖励模型。然而标准DPO目标仅建模两个样本间的整体偏好,对于字形错误常出现在局部区域的视觉文本渲染任务而言尚不充分。为此,我们构建了带有区域级字形偏好标注的GlyphCorrector数据集,并提出区域分组DPO(R-GDPO)——通过标注区域优化样本间与样本内偏好的区域化目标,显著提升字形准确性。此外,我们引入区域奖励引导推理策略,通过可控制字形准确性的最优分布进行采样。大量实验表明,所提GlyphPrinter在保持风格化与精度良好平衡的同时,字形准确性优于现有方法。
近期视频扩散模型在视觉质量上取得了显著进展,但精确的细粒度控制仍是限制内容创作实用定制性的关键瓶颈。对AI视频创作者而言,三种控制形式至关重要:(一)场景构图,(二)多视角一致的主体定制,(三)相机位姿或物体运动调整。现有方法通常孤立处理这些维度,对任意姿态变化下的多视角主体合成与身份保持支持有限。这种统一架构的缺失导致难以实现多功能联合可控视频。我们提出三提示法——一个集成场景构图、多视角主体一致性与运动控制的统一框架及两阶段训练范式。该方法采用由背景场景的3D追踪点与前景主体的降采样RGB线索驱动的双条件运动模块。为确保可控性与视觉真实感之间的平衡,我们进一步提出推理控制网络尺度调度机制。三提示法支持创新工作流,包括将3D感知主体插入任意场景以及对图像中现有主体进行操控。实验结果表明,三提示法在多视角主体身份保持、3D一致性与运动准确性方面显著优于Phantom、DaS等专业基线模型。
本文研究变分自编码器(VAE)在潜在扩散中的可扩散性(可学习性)。首先,我们证明采用均方误差目标的像素空间扩散存在固有偏差,会优先学习低频和中频空间分量,而自然图像的幂律功率谱密度(PSD)使得这种偏差具有感知优势。基于此发现,我们提出频谱匹配假说:具有优异可扩散性的潜在表征应满足(i)遵循平坦化幂律PSD(编码频谱匹配,ESM),(ii)通过解码器保持频率至频率的语义对应关系(解码频谱匹配,DSM)。实践中,我们通过匹配图像与潜在表征的PSD实现ESM,采用频率对齐重建的共享频谱掩码实现DSM。重要的是,频谱匹配为先前观察到的潜在表征过噪或过平滑现象提供了统一解释,并将多种近期方法(如VA-VAE、EQ-VAE)阐释为特例。实验表明,频谱匹配在CelebA和ImageNet数据集上实现了更优的扩散生成效果,且优于现有方法。最后,我们将频谱视角拓展至表征对齐(REPA):证明目标表征的方向性频谱能量对REPA至关重要,并提出基于DoG的方法进一步提升REPA性能。代码已开源:https://github.com/forever208/SpectrumMatching。
随着AI智能体日益作为长期运行系统被部署,自主构建并持续演进定制化软件以支持动态环境交互变得至关重要。然而,现有基准测试仅针对孤立的一次性编码任务评估智能体,忽略了现实软件演进中固有的时序依赖性和技术债务。为弥补这一空白,我们提出DeepCommit——一种能从含噪提交日志中重构可验证里程碑有向无环图的智能体流程,其中里程碑被定义为语义连贯的开发目标。这些可执行序列支撑了EvoClaw新型基准测试,要求智能体在长期软件演进中维持系统完整性并控制错误累积,这两个维度在当前基准测试中严重缺失。通过对4种智能体框架下的12个前沿模型进行评估,我们发现了关键缺陷:整体性能得分从孤立任务中的>80%骤降至持续场景下的最高38%,暴露出智能体在长期维护和错误传播方面存在严重不足。
联邦公开市场委员会(FOMC)声明是货币政策信息的重要来源,其措辞的微妙变化足以牵动全球金融市场。因此,如何量化文本传递的鹰派-鸽派立场成为核心研究任务。现有方法通常将立场检测视为标准分类问题,对每份声明进行独立标注。然而,货币政策沟通的解读本质具有相对性:市场反应不仅取决于声明基调,更关键的是其相较于历次会议的立场变化。本文提出Delta一致性评分(DCS)框架,该无标注方法通过联合建模绝对立场与会议间相对变化,将冻结的大语言模型(LLM)表征映射为连续立场分数。DCS不依赖人工标注的鹰派-鸽派标签,而是利用连续会议记录作为自监督源,同步学习每份声明的绝对立场分数及连续声明间的相对变化分数。通过delta一致性目标函数,确保绝对分数的变化与相对偏移保持一致,从而无需人工标注即可重建时间连贯的立场轨迹。在四种LLM骨干网络的测试中,DCS始终优于监督式探测法和LLM作为评判基线的效果,在句子级鹰派-鸽派分类任务中最高达到71.1%的准确率。所得会议级分数亦具备经济意义:与通胀指标显著相关,且与国债收益率波动存在显著关联。总体表明,LLM表征中蕴含的货币政策信号可通过相对时间结构有效提取。
视觉-语言-动作模型在静态操作任务中表现出色,但在移动目标构成的动态环境中表现欠佳。这一性能差距主要源于动态操作数据集的稀缺性,以及主流模型依赖单帧观测的局限性,制约了其时空推理能力。为此,我们推出DOMINO——一个面向可泛化动态操作的大规模数据集与基准测试平台,包含35项具有层次化复杂度的任务、超过11万条专家演示轨迹及多维度评估体系。通过系统化实验,我们评估了现有模型在动态任务上的表现,探索了动态感知的有效训练策略,并验证了动态数据的泛化能力。此外,我们提出PUMA这一动态感知的VLA架构:通过融合以场景为中心的历史光流信息与专用世界查询模块,隐式预测以物体为中心的未来状态,实现了历史感知与短时预测的耦合。实验结果表明,PUMA取得了最先进的性能,成功率较基线模型绝对提升6.3%。同时我们发现,动态数据训练能催生可迁移至静态任务的鲁棒时空表征。所有代码与数据均已开源:https://github.com/H-EmbodVis/DOMINO。
概念定制方法通常将稀有标记与目标概念进行绑定。然而由于预训练数据中很少包含这些稀有标记,此类方法常面临性能不稳定的问题。同时,这些稀有标记难以传递目标概念的内在知识。为此,我们提出知识感知概念定制这一新任务,旨在将多样化的文本知识绑定到目标视觉概念上。该任务要求模型能够识别文本提示中的知识,从而实现高保真度的定制化生成,同时高效地将所有文本知识绑定至目标概念。基于此,我们提出创新框架MoKus,其核心洞见在于跨模态知识迁移——即文本模态中的知识修改会在生成过程中自然迁移至视觉模态。受此启发,MoKus包含两个阶段:(1)在视觉概念学习阶段,我们首先学习用于存储目标概念视觉信息的锚点表征;(2)在文本知识更新阶段,我们将知识查询的答案更新为锚点表征,从而实现高保真度的定制生成。为了系统评估MoKus在新任务上的表现,我们构建了首个知识感知概念定制基准KnowCusBench。大量实验表明,MoKus在性能上超越现有最优方法。此外,跨模态知识迁移特性使MoKus可轻松扩展至虚拟概念创建、概念擦除等知识感知应用场景。我们进一步验证了该方法在世界知识基准测试中的提升效果。
我们推出ScienceClaw + Infinite框架——一种去中心化的自主科研体系,其中独立智能体在无中央协调的情况下开展研究,任何参与者均可向共享生态系统部署新智能体。该体系围绕三大核心组件构建:包含300多项可互操作科研技能的可扩展注册库、以有向无环图(DAG)完整保存计算溯源关系的成果层,以及支持基于智能体的科学论述并具备溯源感知治理机制的结构化平台。智能体根据其科研画像选择并链式调用工具,生成带有类型化元数据和父系溯源关系的不可变成果,同时将未满足的信息需求广播至共享全局索引。ArtifactReactor实现无规划器协调:协同智能体通过压力评分机制发现并满足开放需求,而模式重叠匹配可触发跨独立分析的多父系合成。自主变异层主动修剪持续扩展的成果DAG以解决工作流冲突或冗余,持久化内存则支持智能体在多个研究周期中持续构建复杂认知状态。Infinite通过结构化帖子、溯源视图和机器可读的论述关系,将这些输出转化为可审计的科学记录,社区反馈进而引导后续研究周期。在肽类药物设计(靶向生长抑素受体SSTR2)、轻质抗冲击陶瓷筛选、跨域共振研究(融合生物/材料/音乐领域)以及城市形态学与晶界演化形式类比构建四项自主研究中,该框架展现出异构工具链式调用、独立运行智能体间的涌现性收敛,以及从原始计算到发表成果的可追溯推理能力。
文档解析作为一项基础而关键的视觉任务,正受到视觉语言模型(VLM)的革命性影响。然而,VLM固有的自回归解码机制形成了显著瓶颈,严重限制了解析速度。本文提出并行令牌预测(PTP),这是一种可插拔、模型无关且简洁高效的方法,能使VLM以改进的样本效率并行生成多个未来令牌。具体而言,我们在输入序列中插入可学习的令牌,并设计相应训练目标,使模型获得面向文档解析的并行解码能力。此外,为支持有效训练,我们开发了综合数据生成流程,可高效产出面向VLM的大规模高质量文档解析训练数据。在OmniDocBench和olmOCR-bench上的大量实验表明,该方法不仅显著提升了解码速度(1.6-2.2倍),同时减少了模型幻觉现象,并展现出强大的泛化能力。
解读视觉语言模型的内部推理机制对于在安全关键领域部署人工智能至关重要。基于概念的可解释性方法通过语义化组件表征模型行为,提供了符合人类认知的分析视角。然而现有方法主要局限于单模态图像分析,忽视了跨模态交互作用。诸如CLIP生成的图文嵌入向量存在模态鸿沟问题——视觉与文本特征遵循不同分布规律,这限制了模型的可解释性。典型相关分析(CCA)为对齐不同分布的特征提供了理论框架,但尚未被用于多模态概念级分析。我们证明CCA与InfoNCE的目标函数具有紧密关联,优化CCA等价于隐式优化InfoNCE,从而在不影响预训练InfoNCE目标的前提下,提供了一种无需重新训练的简易跨模态对齐机制。基于此发现,我们将概念可解释性与CCA相结合,提出概念典型相关分析(CoCCA)框架,在实现跨模态嵌入对齐的同时支持可解释的概念解构。进一步提出稀疏概念典型相关分析(SCoCCA),通过施加稀疏性约束生成更具解耦性和判别性的概念,显著提升激活、消融和语义操控等任务的性能。我们的方法将基于概念的解释推广至多模态嵌入空间,在概念发现任务中达到最先进水平,这通过概念重构和概念消融等操控任务得到验证。
虚拟试衣技术虽已实现单件服装的可视化,但现实时尚搭配注重包含多件服装、配饰、细分类别、层次叠穿及多元风格的整体造型,这仍是当前VTON系统的技术盲区。现有数据集存在品类局限且缺乏造型多样性。我们推出首个面向整体造型级VTON的大规模多模态数据集Garments2Look,包含8万组多服装至单造型的配对数据,涵盖40个主要品类与300余个细分子类。每组数据包含由3-12张参考服装图像(平均4.48张)构成的整套造型、模特上身效果图,以及详细的单品描述与试穿文本标注。为平衡真实性与多样性,我们提出合成流水线:先通过启发式方法构建造型清单,再生成试穿效果,整个流程经过严格自动化筛选与人工验证以确保数据质量。为评估任务难度,我们适配了多种SOTA虚拟试衣方法与通用图像编辑模型建立基准测试。结果表明,现有方法难以实现整套服装的无缝试穿,也无法准确推断层次搭配与造型风格,导致错位与伪影问题。
针对交互系统的全流式文本转语音(TTS)技术需在实现极低延迟开播的同时,保持对增量到达文本的可控性。我们提出VoXtream2——一种具备动态语速控制功能的零样本全流式TTS模型,可在语音生成过程中实时调整语速。该模型通过时长状态的分布匹配机制与条件信号的分类器无关引导相结合,有效提升了可控性与合成质量。采用提示文本掩码技术实现了无需文本的音频提示功能,消除了提示转录的需求。在标准零样本基准测试及专用语速测试集上,VoXtream2以更小的模型规模和更少的训练数据,在客观指标和主观听感方面均达到与公开基线模型相当的结果。全流式运行模式下,该系统在消费级GPU上可实现4倍于实时速度的生成效率,首包延迟仅为74毫秒。
近期离散图像生成的研究进展表明,扩大VQ码本规模能显著提升重建保真度。然而,采用大型VQ码本训练生成模型仍面临挑战,通常需要更大的模型规模和更长的训练周期。本研究提出随机邻域交叉熵最小化(SNCE),这是一种针对大码本离散图像生成器优化难题设计的新型训练目标。与传统硬性独热编码监督不同,SNCE通过构建邻域标记集合上的软分类分布进行训练,每个标记的概率分配与其编码嵌入和真实图像嵌入的邻近度成正比,从而促使模型在量化嵌入空间中捕捉具有语义意义的几何结构。我们在类别条件ImageNet-256生成、大规模文本到图像合成及图像编辑任务上进行了广泛实验。结果表明,相较于标准交叉熵目标,SNCE能显著提升收敛速度与整体生成质量。
基于电子健康记录(EHR)的临床问答系统能够帮助临床医生和患者更高效地获取相关医疗信息。然而,当前许多方法依赖大型云端模型,由于隐私限制和计算资源要求,这类模型难以在临床环境中部署。本研究探索了在仅使用单台笔记本电脑的受限条件下,基于EHR的问答系统性能能达到何种高度。我们参与了ArchEHR-QA 2026共享任务的全部四个子任务,评估了多种适用于商用硬件的解决方案。所有实验均在本地完成,未使用任何外部API或云基础设施。结果表明,此类系统在共享任务排行榜上能取得具有竞争力的表现:我们的提交结果在两个子任务中超过平均水平,并发现经过适当配置后,较小规模的模型可以接近大型系统的性能。这些发现表明,基于现有模型和商用硬件实现完全本地的隐私保护型EHR问答系统具有可行性。源代码已发布于https://github.com/ibrahimey/ArchEHR-QA-2026。