每日精选AI研究论文及翻译
本文提出NeoVerse——一个通用的4维世界模型,能够实现4维重建、新轨迹视频生成及丰富的下游应用。我们首先指出当前4维世界建模方法普遍存在的可扩展性局限,这些局限源于昂贵的专业多视角4维数据或繁琐的训练预处理。相比之下,NeoVerse基于核心设计理念,使完整流程能够灵活适配多样化的单目野外视频。具体而言,NeoVerse具备无需位姿标注的前馈式4维重建、在线单目退化模式模拟等高度协同的技术方案。这些设计使NeoVerse在多种领域均展现出卓越的通用性与泛化能力。同时,该模型在标准重建与生成基准测试中达到了最先进性能。项目页面详见:https://neoverse-4d.github.io
现有大型语言模型(LLM)智能体框架面临两大挑战:高配置成本与静态能力局限。构建高质量智能体往往需要投入大量人工进行工具集成与提示词工程,而已部署的智能体若缺乏昂贵的微调则难以适应动态环境。为解决这些问题,我们提出Youtu-Agent——一个面向LLM智能体自动化生成与持续演进的模块化框架。该框架采用结构化配置系统,将执行环境、工具集与上下文管理解耦,实现灵活复用与自动化合成。我们引入两种生成范式:面向标准任务的工作流模式,以及针对复杂非标需求的元智能体模式,可自动生成工具代码、提示词及配置方案。此外,Youtu-Agent建立了混合策略优化体系:(1)智能体实践模块通过上下文优化使智能体无需参数更新即可积累经验提升性能;(2)智能体强化学习模块对接分布式训练框架,支持任意Youtu-Agent以端到端、大规模方式进行可扩展的稳定强化学习。实验表明,Youtu-Agent在WebWalkerQA(71.47%)和GAIA(72.8%)基准上使用开源权重模型达到领先水平。我们的自动化生成管道工具合成成功率超81%,实践模块将AIME 2024/2025任务性能分别提升2.7%和5.4%。智能体强化学习训练在7B参数LLM上实现40%加速且性能稳定提升,在数学与通用/多跳问答基准上分别将代码推理和搜索能力最高提升35%和21%。
多模态大语言模型(MLLMs)在视频理解领域取得了显著进展,但其存在一个关键缺陷:对语言先验的过度依赖容易引发视觉信息失真的幻觉现象,尤其在处理违背常识的反事实视频时更为突出。这一局限源于文本与视频数据间的内在不平衡,而反事实数据采集与标注的高成本使得该问题难以解决。为此,我们提出DualityForge——一种基于可控扩散模型的反事实数据合成框架,通过视频编辑技术将真实视频转化为反事实场景。该框架通过将结构化上下文信息嵌入视频编辑与问答生成流程,自动生成高质量的问答对及原始-编辑视频对,以支持对比训练。基于此,我们构建了大规模视频数据集DualityVidQA,专门用于降低MLLMs的幻觉现象。此外,为充分利用配对数据的对比特性,我们提出对偶归一化优势训练(DNA-Train),采用监督微调-强化学习两阶段训练策略,其中强化学习阶段应用配对间ℓ₁优势归一化,实现更稳定高效的策略优化。在DualityVidQA测试集上的实验表明,我们的方法能显著降低模型在反事实视频上的幻觉,相比Qwen2.5-VL-7B基线模型相对提升24.0%。此外,本方法在幻觉评测与通用能力基准测试中均取得显著提升,展现出强大的泛化能力。我们将开源数据集与代码。
说话人头像生成技术能够从静态肖像创建逼真的虚拟形象,用于虚拟交流与内容创作。然而,现有模型尚不能传递真正互动交流的体验,往往生成单向响应而缺乏情感共鸣。我们发现实现真正交互式虚拟形象存在两大核心挑战:在因果约束下实现实时运动生成,以及无需额外标注数据即可学习富有表现力的生动反应。为此,我们提出Avatar Forcing——一种通过扩散驱动建模实时用户-虚拟形象交互的新框架。该设计使虚拟形象能够以低延迟处理实时多模态输入(包括用户音频与动作),即时响应言语和非言语线索(如语音、点头和笑声)。此外,我们引入基于用户条件丢弃构建合成负样本的直接偏好优化方法,实现无需标注的表达性交互学习。实验结果表明,我们的框架可实现低延迟(约500毫秒)实时交互,较基线加速6.8倍,并生成具有反应力与表现力的虚拟形象动作,在用户评估中以超过80%的偏好度优于基线系统。
尽管近期在语言模型开发等领域取得了进展,但关于此类模型如何实现持续学习/记忆、自我优化及寻找有效解决方案等根本性挑战与未解之谜依然存在。本文提出一种名为"嵌套学习"的新型学习范式,该范式通过一组具有各自上下文流的嵌套式、多层级和/或并行优化问题,来连贯地表征机器学习模型。透过NL视角可发现,现有深度学习方法通过压缩自身上下文流从数据中学习,而上下文学习能力会在大模型中自然涌现。NL提出了一种设计理念:通过增加层级构建更具表达力的学习算法,从而实现高阶上下文学习,并有望解锁持续学习能力。我们通过三项核心贡献来论证NL的价值:(1)表达性优化器:证明Adam、带动量的SGD等基于梯度的优化器实质上是关联记忆模块,其通过梯度下降压缩梯度信息。基于此发现,我们提出了具有深度记忆和/或更强学习规则的其他表达性优化器;(2)自修改学习模块:利用NL对学习算法的新见解,构建了能通过学习自身更新算法来实现自我修改的序列模型;(3)连续记忆系统:提出新的记忆系统框架,泛化了传统长短时记忆的视角。将自修改序列模型与连续记忆系统结合,我们开发出名为"Hope"的持续学习模块,在语言建模、知识融合、小样本泛化任务、持续学习及长上下文推理任务中展现出优异性能。
尽管视觉语言模型(VLMs)能够通过智能推理解决复杂任务,但其能力仍主要局限于文本导向的思维链或孤立工具调用。它们无法展现人类般的熟练度,将动态工具操作与连续推理无缝交织,尤其在需要协调外部工具(如搜索和图像裁剪)的知识密集型及视觉复杂场景中。本文提出SenseNova-MARS——一种新型多模态智能推理与搜索框架,通过强化学习赋予VLMs交织式视觉推理与工具调用能力。具体而言,SenseNova-MARS动态整合图像搜索、文本搜索与图像裁剪工具,以应对细粒度和知识密集型的视觉理解挑战。在强化学习阶段,我们提出批归一化分组序列策略优化算法(BN-GSPO),以提升训练稳定性并增强模型调用工具与有效推理的能力。为全面评估智能VLM在复杂视觉任务中的表现,我们构建了HR-MMSearch基准——首个由高分辨率图像构成、包含知识密集型搜索驱动问题的搜索导向基准。实验表明,SenseNova-MARS在开源搜索与细粒度图像理解基准上达到最先进性能。具体而言,在搜索导向基准上,SenseNova-MARS-8B模型在MMSearch得分67.84,在HR-MMSearch得分41.64,超越Gemini-3-Flash、GPT-5等专有模型。SenseNova-MARS通过提供高效稳健的工具调用能力,为智能VLM的发展迈出重要一步。为推动该领域研究,我们将公开全部代码、模型与数据集。
深度残差网络的有效性从根本上依赖于恒等快捷连接机制。虽然该机制能有效缓解梯度消失问题,但其为特征变换施加了严格的加性归纳偏置,从而限制了网络建模复杂状态转移的能力。本文提出深度增量学习(DDL)这一新型架构,通过采用可学习的、数据依赖的几何变换对恒等快捷连接进行调制,从而推广了标准残差连接。这种被称为增量算子的变换构成了单位矩阵的秩-1扰动,由反射方向向量k(X)和门控标量β(X)共同参数化。我们对该算子进行了谱分析,证明门控值β(X)能够实现恒等映射、正交投影与几何反射之间的动态插值。进一步地,我们将残差更新重构为同步秩-1注入,其中门控值作为动态步长同时控制旧信息的擦除与新特征的写入。这种统一设计使网络能够显式控制其层间转移算子的谱分布,在保持门控残差架构稳定训练特性的同时,实现对复杂非单调动态的建模。
基于单目视频重建动态三维场景需同时捕捉高频外观细节与时间连续运动。现有采用单一高斯基元的方法受限于其低通滤波特性,而标准Gabor函数存在能量不稳定问题。此外,时间连续性约束的缺失常导致插值过程中出现运动伪影。我们提出AdaGaR这一统一框架,在显式动态场景建模中同时解决频率自适应性与时间连续性问题。通过引入自适应Gabor表征,我们扩展高斯基元至可学习频率权重与自适应能量补偿,以平衡细节捕捉与稳定性。针对时间连续性,采用带时间曲率正则化的三次埃尔米特样条确保平滑运动演化。结合深度估计、点追踪与前景掩码的自适应初始化机制,在训练初期建立稳定点云分布。Tap-Vid DAVIS数据集实验表明,该方法在峰值信噪比(35.49)、结构相似性(0.9433)和感知相似度(0.0723)上达到最优性能,并在帧插值、深度一致性、视频编辑与立体视图合成任务中展现强大泛化能力。项目页面:https://jiewenchan.github.io/AdaGaR/
当前最先进的大型语言模型(LLM)流程依赖于自举推理循环:通过采样多样化的思维链并强化得分最高的路径,主要优化正确性。我们分析了这种设计选择如何对模型在推理路径上的分布崩溃敏感,从而削减语义熵并削弱创造性问题解决能力。为解析这一失效机制,我们提出分布创造性推理(DCR)——一种将训练视为通过解轨迹概率测度的梯度流的统一变分目标。STaR、GRPO、DPO以及熵奖励等方法的损失函数均可视为该目标的特例。该框架产生三项核心成果:(i)多样性衰减定理,描述基于正确性的目标如何导致STaR、GRPO和DPO出现不同的多样性衰减模式;(ii)确保收敛至稳定且多样化策略的设计方案,有效防止分布崩溃;(iii)可在实践中实现的简洁可行方案。DCR由此首次为LLM提供了保持正确性与创造性的原理性解决方案。
Recent studies have demonstrated significant progress in aligning text-to-image diffusion models with human preference via Reinforcement Learning from Human Feedback. However, while existing methods achieve high scores on automated reward metrics, they often lead to Preference Mode Collapse (PMC)-a specific form of reward hacking where models converge on narrow, high-scoring outputs (e.g., images with monolithic styles or pervasive overexposure), severely degrading generative diversity. In this work, we introduce and quantify this phenomenon, proposing DivGenBench, a novel benchmark designed to measure the extent of PMC. We posit that this collapse is driven by over-optimization along the reward model's inherent biases. Building on this analysis, we propose Directional Decoupling Alignment (D^2-Align), a novel framework that mitigates PMC by directionally correcting the reward signal. Specifically, our method first learns a directional correction within the reward model's embedding space while keeping the model frozen. This correction is then applied to the reward signal during the optimization process, preventing the model from collapsing into specific modes and thereby maintaining diversity. Our comprehensive evaluation, combining qualitative analysis with quantitative metrics for both quality and diversity, reveals that D^2-Align achieves superior alignment with human preference.
近期研究表明,强化学习能显著提升大语言模型的推理能力。然而此类RL训练的有效性,关键取决于预训练模型词元输出分布所定义的探索空间。本文重新审视标准交叉熵损失函数,将其解读为应用于单步决策场景的策略梯度优化特例。为系统研究预训练分布如何影响后续RL的探索潜力,我们提出一种将同策略RL原则适配至监督学习的广义预训练目标。通过将下一词元预测构建为随机决策过程,我们引入显式平衡多样性与精确度的奖励塑造策略:采用正奖励缩放因子控制真实标签词元的概率集中度,并实施区分高低排名负样本的非对称排序感知机制。借此重塑预训练词元输出分布,探究如何为RL提供更有利的探索空间,最终提升端到端推理性能。与"高分布熵促进有效探索"的直觉相反,我们发现施加以精确性为导向的先验分布能为RL创造更优越的探索空间。
现代语言模型中的序列建模层通常面临存储容量与计算效率之间的权衡。Softmax注意力机制虽能提供无界存储空间,却需付出难以承受的二次方计算代价;线性变体虽计算高效,但受限于固定大小的有限存储。我们提出快速权重乘积键记忆(FwPKM),这一新颖架构通过将稀疏的乘积键记忆(PKM)从静态模块转化为动态的"快速权重"情景记忆,成功化解了这一矛盾。与PKM不同,FwPKM在训练和推理阶段均通过局部块级梯度下降动态更新参数,使模型能够快速记忆并检索输入序列中的新键值对。实验表明,FwPKM作为有效的情景记忆机制,可与标准模块的语义记忆形成互补,在长上下文数据集上实现显著困惑度下降。值得注意的是,在"大海捞针"评估中,尽管仅使用4K标记序列进行训练,FwPKM仍能泛化至128K标记的上下文场景。
由于生成语义一致且时序平滑的变形序列存在困难——尤其是在跨类别场景下,3D形变技术仍面临挑战。本文提出MorphAny3D,一种基于结构化潜在表征(SLAT)的无训练框架,可实现高质量3D形变。我们的核心发现是:通过智能融合源目标SLAT特征到3D生成器的注意力机制中,能够自然产生逼真的形变序列。为此,我们设计了形变交叉注意力(MCA)模块——通过融合源目标信息保持结构连贯性,以及时序融合自注意力(TFSA)模块——通过引入前一帧特征增强时序一致性。此外,方向校正策略有效缓解了形变过程中的姿态模糊问题。大量实验表明,本方法能生成最先进的形变序列,即使在挑战性跨类别案例中亦表现出色。MorphAny3D进一步支持解耦形变与3D风格迁移等高级应用,并可推广至其他基于SLAT的生成模型。项目页面:https://xiaokunsun.github.io/MorphAny3D.github.io/。
当人工智能系统逐步展示其推理过程时,从业者常认为这些解释揭示了实际影响AI答案的因素。我们通过将提示信息嵌入问题并检测模型是否提及这些提示,对该假设进行了验证。在对11个主流AI模型超过9000个测试案例的研究中,我们发现了一个令人担忧的模式:模型几乎从不主动提及提示信息,但当被直接询问时,它们却承认注意到了这些提示。这表明模型能够识别关键信息却选择不报告。警告模型其行为正被监控并无改善作用。强制要求模型报告提示虽有效果,但会导致其在无提示时也虚构报告,并降低答案准确率。我们还发现,迎合用户偏好的提示尤其危险——模型最常遵循这类提示却最少报告它们。这些发现表明,仅观察AI的推理过程不足以发现潜在的影响因素。
大型语言模型(LLM)在推理与代码生成领域已展现出显著进步,但如何高效创建评估这些能力的新基准仍具挑战。传统基准构建依赖人工操作,这一过程成本高昂且耗时漫长。此外,现有基准常会污染LLM训练数据,因此需要新颖多样的基准来准确评估其真实能力。本研究提出InfoSynth——一种基于信息论原理自动生成与评估推理基准的创新框架。我们基于KL散度与熵提出量化指标,可在无需昂贵模型评估的情况下衡量基准的新颖性与多样性。基于该框架,我们开发出端到端流程,通过遗传算法与迭代代码反馈从种子数据集合成稳健的Python编程题目。该方法对新问题生成准确测试用例与解决方案的成功率达97%,且合成基准相较于种子数据集持续展现出更高新颖性与多样性。此外,我们的算法还能控制生成题目的新颖性/多样性及难度。InfoSynth为构建高质量、新颖多样的LLM基准提供了可扩展的自验证流程。项目页面:https://ishirgarg.github.io/infosynth_web/