每日精选AI研究论文及翻译
我们推出T-pro 2.0——一个支持混合推理与高效推理的俄语开源大语言模型。该模型支持直接回答与推理轨迹生成,采用西里尔密集分词器并适配EAGLE推测解码流水线以降低延迟。为促进可复现、可扩展的研究,我们在Hugging Face平台开源了模型权重、T-Wix 50万条指令数据集、T-Math数学推理基准以及EAGLE权重。这些资源使用户能够研究俄语推理机制,并扩展或适配模型及推理流水线。公开的网页演示展示了推理与非推理模式,呈现了我们的推理栈在多领域实现的加速效果。T-pro 2.0由此成为一个易用的开放系统,可用于构建和评估高效实用的俄语大语言模型应用。
大型语言模型(LLMs)通过可验证奖励的强化学习(RLVR)在解决复杂推理任务方面取得了显著进展。这一进步同样离不开基于可靠验证器的自动化监督。然而,当前基于结果的验证器(OVs)无法有效检查长思维链(CoTs)中不可靠的中间步骤;而现有基于过程的验证器(PVs)受限于人工标注的高昂成本导致高质量标注稀缺,难以可靠检测复杂长思维链中的错误。为此,我们提出基于结果的过程验证器(OPV),通过验证长思维链中总结性结果的推理过程,实现精准高效的验证并支持大规模标注。为增强该验证器能力,我们采用结合专家标注的迭代式主动学习框架,以较低标注成本逐步提升OPV的验证性能。具体而言,每轮迭代中标注当前最优OPV最不确定的案例,随后通过拒绝微调(RFT)和RLVR训练新一代OPV。大量实验证明OPV具有卓越性能与广泛适用性:在保留测试集\thisbench 上以83.1的F1分数刷新最优结果,显著超越Qwen3-Max-Preview等更大规模开源模型的76.3分;在合成数据集中能有效识别假阳性案例,与专家评估高度一致;与策略模型协同工作时,OPV持续带来性能提升,例如在AIME2025任务中随着计算预算增加,将DeepSeek-R1-Distill-Qwen-32B的准确率从55.2%提升至73.3%。
强化学习(RL)此前已被证明对大型语言模型与多模态模型有效,近期更成功拓展至增强二维图像生成领域。然而,由于三维物体具有更高的空间复杂性,需兼顾全局一致的几何结构与细粒度局部纹理,将RL应用于三维生成的研究仍处于空白。这一特性使得三维生成对奖励函数设计和RL算法极为敏感。为应对这些挑战,我们首次从多维度系统研究了基于RL的文本到三维自回归生成方法:(1)奖励设计:通过评估奖励维度与模型选择,发现与人类偏好对齐至关重要,且通用多模态模型能为三维属性提供稳健信号;(2)RL算法:研究GRPO算法变体,证明词元级优化的有效性,并深入探索训练数据与迭代次数的缩放规律;(3)三维生成基准:针对现有基准无法衡量三维生成模型隐含推理能力的问题,提出MME-3DR基准;(4)先进RL范式:受三维生成天然层次性启发,提出Hi-GRPO方法,通过专用奖励组合优化从全局到局部的层次化三维生成。基于这些发现,我们开发出AR3D-R1——首个RL增强的文本到三维生成模型,实现了从粗粒度形状到纹理细化的全流程优化。本研究旨在为RL驱动的三维生成推理提供新见解。代码已发布于https://github.com/Ivan-Tang-3D/3DGen-R1。
大型语言模型(LLMs)通过可验证奖励的强化学习(RLVR)在解决复杂推理任务方面取得了显著进展。这一进步同样离不开基于可靠验证器的自动化监督。然而,当前基于结果的验证器(OVs)难以检查长思维链(CoTs)中不可靠的中间步骤;而现有基于过程的验证器(PVs)受限于人工标注的高昂成本导致高质量标注稀缺,难以可靠检测复杂长链推理中的错误。为此,我们提出基于结果的过程验证器(OPV),通过验证长思维链中总结性结果的推导过程,实现精准高效的验证并支持大规模标注。为增强该验证器能力,我们采用专家标注的迭代式主动学习框架,以较低标注成本逐步提升OPV的验证性能。具体而言,每轮迭代中标注当前最优OPV最不确定的案例,随后通过拒绝微调(RFT)和RLVR训练新一代OPV。大量实验表明OPV具有卓越性能与广泛适用性:在自建评测集OPV-Bench上以83.1的F1分数刷新最优结果,显著超越Qwen3-Max-Preview等更大规模开源模型的76.3分;在合成数据集中能有效识别假阳性案例,与专家评估高度一致;与策略模型协同工作时,OPV持续带来性能提升,例如在AIME2025任务中随着计算预算增加,将DeepSeek-R1-Distill-Qwen-32B的准确率从55.2%提升至73.3%。
大型语言模型(LLM)智能体展现出卓越的数学问题解决能力,甚至能在形式化证明系统的辅助下解决国际数学奥林匹克(IMO)级别的难题。然而由于辅助构造的启发式能力较弱,几何问题求解领域仍被AlphaGeometry 2等专家模型主导,这类模型严重依赖大规模数据合成及训练评估阶段的搜索策略。本研究首次尝试构建具有金牌得主水准的几何LLM智能体InternGeometry,该模型通过迭代式命题生成与辅助构造提议,结合符号引擎验证及反馈反思机制,突破了传统几何启发式方法的局限。动态记忆机制使InternGeometry能对每个问题完成超200次符号引擎交互。为进一步加速学习,我们提出复杂度递增强化学习(CBRL)方法,在训练阶段逐步提升合成问题的复杂度。基于InternThinker-32B构建的InternGeometry在2000-2024年间的50道IMO几何题中成功解答44题,以仅1.3万训练样本(相当于AlphaGeometry 2数据量的0.004%)超越金牌得主平均分(40.9分),证明了LLM智能体在专业几何任务上的潜力。该模型还能为人类解法中未出现的IMO问题提出创新性辅助构造。我们将公开模型、数据及符号引擎以支持后续研究。
动作捕捉技术如今已支撑起远超数字人范畴的内容创作,但现有流程大多仍受限于特定物种或模板。我们将这一差距形式化为类别无关动作捕捉(CAMoCap):给定单目视频和任意绑定骨骼的3D资源作为提示,目标是重建可直接驱动该特定资源的基于旋转的动画(如BVH格式)。我们提出MoCapAnything——一个参考引导的因子化框架,首先生成3D关节轨迹,再通过约束感知逆向运动学计算资源专属旋转。该系统包含三个可学习模块与轻量级IK阶段:(1)参考提示编码器,从资源骨架、网格及渲染图像中提取逐关节查询;(2)视频特征提取器,计算稠密视觉描述符并重建粗糙4D变形网格,以弥合视频与关节空间之间的鸿沟;(3)统一运动解码器,融合多模态线索生成时序连贯的轨迹。我们还构建了Truebones Zoo数据集,包含1038个动作片段,每个片段提供标准化的骨架-网格-渲染三元组。在领域内基准测试和真实场景视频上的实验表明,MoCapAnything能输出高质量骨骼动画,在异构骨骼绑定间实现有意义的跨物种动作重定向,为任意资源实现可扩展的提示驱动式3D动作捕捉。项目页面:https://animotionlab.github.io/MoCapAnything/
随着大型语言模型从研究原型转向生产系统,从业者往往需要可靠的方法来验证模型输出是否满足既定约束。虽然基于采样的估计能提供模型行为的直观认知,但无法给出严格保证。我们提出BEAVER框架——首个可实际计算LLM约束满足度的确定性概率边界的方法。该框架针对任意前缀封闭的语义约束,通过创新的词汇树和边界数据结构系统性地探索生成空间,并在每次迭代中保持可证明的严格边界。我们形式化验证问题,证明方法的可靠性,并在多个前沿LLM上对BEAVER进行正确性验证、隐私验证及安全代码生成任务的评估。在相同计算资源下,BEAVER获得的概率边界比基线方法精确6至8倍,高风险实例识别数量提升3至4倍,实现了松散边界或经验评估无法达成的精准特性描述与风险评估。
本文提出微观空间智能(MiSI)的概念,即感知和推理不可见微观实体空间关系的能力,这种能力是科学发现的基础。为评估视觉语言模型(VLMS)在该领域的潜力,我们构建了系统化基准框架MiSI-Bench。该框架包含超过16.3万个问答对和58.7万张图像,数据源自约4000个分子结构,涵盖九项互补任务,评估能力范围从基础空间变换到复杂关系识别。实验结果表明,当前最先进的VLMS在此基准上的表现显著低于人类水平。然而,经过微调的7B参数模型展现出巨大潜力,在空间变换任务中甚至超越人类,但其在氢键识别等科学基础任务中的薄弱表现表明,要实现科学通用人工智能需整合显式领域知识。数据集已发布于https://huggingface.co/datasets/zongzhao/MiSI-bench。
在多模态模型构建中,如何通过单一分词器实现理解、生成与重建表征的统一仍是一个核心挑战。现有研究主要基于双编码器范式进行探索,例如分别采用独立编码器处理理解与生成任务,或通过对比损失平衡语义表征与底层特征。本文提出VQRAE(表征自编码器的向量量化版本),首次在统一分词器框架下探索联合表征——既生成用于图像理解的连续语义特征,又产生适用于视觉生成的离散标记。具体而言,我们在预训练视觉基础模型上引入对称ViT解码器,采用两阶段训练策略:第一阶段冻结编码器,以像素重建为目标学习高维语义VQ码本;第二阶段通过自蒸馏约束联合优化编码器。该设计既能以可忽略的语义损失维持多模态理解能力,又可生成兼容生成任务的离散标记并实现细粒度重建。此外,我们发现语义编码器量化需依赖高维码本(与图像重建中常用的低维码本实践相反)这一有趣特性,所构建的1536维语义VQ码本可实现100%利用率。VQRAE在视觉理解、生成与重建的多项基准测试中展现出竞争力,其离散特性在自回归范式下表现出良好的扩展潜力。
基于图像思维的推理范式通过将视觉信息作为动态元素融入思维链,展现出卓越的视觉推理能力。然而,由于依赖稀缺的高质量推理数据,通过强化学习优化交错式多模态思维链仍具挑战。本研究提出自调用思维链——一种新型视觉推理范式,它将交错式多模态思维链重构为具有自调用功能的纯语言思维链。具体而言,主代理将复杂视觉推理任务分解为原子子任务,并调用其虚拟副本(即参数共享子代理)在隔离上下文中解决问题。该范式无需显式的模态交错操作,因而具有显著的训练效能与效率优势。通过采用群体相对策略优化来强化有效推理行为,进一步提升了优化效果。在HR-Bench 4K上的实验表明,相较于强基线方法,自调用思维链将整体推理性能提升最高达1.9%,同时减少约75%的GPU计算时耗。代码已开源于:https://github.com/YWenxi/think-with-images-through-self-calling。
生成式世界模型在模拟不同环境中视觉运动策略的交互方面具有巨大潜力。前沿视频模型能够以可扩展的通用方式生成逼真的观测结果和环境交互。然而,视频模型在机器人领域的应用主要局限于分布内评估,即与训练策略或微调基础视频模型时相似的场景。本报告证明,视频模型可覆盖机器人策略评估的全场景:从标称性能评估到分布外泛化能力测试,乃至物理与语义安全性的探测。我们基于前沿视频基础模型(Veo)构建了生成式评估系统,该系统经优化可支持机器人动作条件约束与多视角一致性,同时集成生成式图像编辑与多视角补全技术,沿多个泛化维度合成真实场景的逼真变体。实验表明,该系统保留了视频模型的基础能力,能精确模拟经编辑后包含新型交互物体、新颖视觉背景及干扰物体的场景。这种保真度使得我们能够准确预测不同策略在标称与分布外条件下的相对性能,确定各泛化维度对策略性能的影响程度,并通过红队测试暴露违反物理或语义安全约束的行为。我们通过对双手机器人执行器进行8个Gemini Robotics策略检查点、5项任务的1600余次现实世界评估,验证了这些能力。
我们提出StereoSpace——一种基于扩散模型的单目到立体合成框架,该框架仅通过视角条件建模几何关系,无需显式深度或形变操作。通过构建规范矫正空间与条件引导机制,生成器能够端到端地推断对应关系并补全遮挡区域。为确保公平无泄漏的评估,我们建立了一套端到端评测协议,在测试阶段完全排除真实几何数据或代理几何估计的干扰。该协议重点关注反映下游应用价值的指标:感知舒适度的iSQoE指标与几何一致性的MEt3R指标。StereoSpace在形变修补、潜在空间形变和条件形变三类方法中均实现超越,在层叠场景与非朗伯场景下均能生成锐利视差并保持强鲁棒性。这确立了视角条件化扩散模型作为无需深度信息的立体生成方案的扩展性优势。
尽管归一化层长期被视为深度学习架构中不可或缺的组成部分,但动态双曲正切函数(DyT)的提出证明了替代方案的存在可能。这种点态函数通过约束极端值实现稳定收敛,并达到归一化级别的性能;本研究旨在探索能超越该性能的函数设计。我们首先探究点态函数的内在特性如何影响训练与性能,基于这些发现展开大规模搜索以寻求更有效的函数设计。通过系统探索,我们提出Derf(x) = erf(αx + s)函数(其中erf(x)为缩放后的高斯累积分布函数),并确认其为实现最优性能的设计。在图像识别与生成、语音表征、DNA序列建模等广泛领域中,Derf的表现均优于层归一化、RMSNorm及DyT。研究发现Derf的性能提升主要源于其增强的泛化能力而非拟合能力。该函数的简洁性与卓越性能使其成为无归一化Transformer架构的理想选择。
视频问答任务作为评估基础模型能否有效感知、理解并推理动态现实场景的关键试验场。然而,现有多模态大语言模型在复杂且需要强推理能力的视频问答任务中,难以同时建模视频帧内的空间关系并理解时序演变的因果动态。本研究为多模态大语言模型配备了一套全面可扩展的视频工具包,以增强其时空推理能力,并确保工具数量与多样性的协调统一。为更好地控制工具调用顺序并避免工具链捷径问题,我们提出时空推理框架,通过策略性调度时序与空间工具,逐步定位视频中的关键区域。该框架基于轻量级工具增强GPT-4o模型,在VideoMME和LongVideoBench基准上分别实现8.2%和4.6%的性能提升。我们相信,所提出的视频工具包与时空推理框架为构建自主智能的视频分析助手迈出了重要一步。代码已开源于https://github.com/fansunqi/VideoTool。
通过从日常人类视频中学习操作技能,机器人无需繁琐的数据采集即可获得广泛能力。我们提出一种视频到视频的转换框架,能将普通人机交互视频转化为具有真实物理交互效果且运动连贯的机器人操作视频。该方法仅需一组非配对的机器人视频进行训练,无需任何人机配对视频,使系统易于扩展。我们引入一种可迁移的表征方式来弥合本体差异:通过修复训练视频中的机械臂获得干净背景,并叠加简单视觉提示(指示夹爪位置与方向的标记和箭头),可引导生成模型将机械臂重新插入场景。测试时,我们对人类视频实施相同流程(修复人体并叠加姿态提示),生成能模仿人类动作的高质量机器人视频。我们采用上下文学习方式对SOTA视频扩散模型(Wan 2.2)进行微调,确保时间连贯性并利用其丰富的先验知识。实验结果表明,相较于基线方法,我们的方案能实现显著更真实且符合物理规律的机器人运动,为通过无标注人类视频扩展机器人学习指明了前景。项目页面:https://showlab.github.io/H2R-Grounder/
我们推出FACTS评估体系——一套在线排行榜及关联基准测试,旨在全面评估语言模型在不同场景下生成事实准确文本的能力。该体系通过聚合模型在四个独立子榜单上的表现提供整体事实性度量:(1)FACTS多模态榜,衡量基于图像提问的响应事实性;(2)FACTS参数知识榜,通过闭卷事实问答评估模型内部参数蕴含的世界知识;(3)FACTS搜索应用榜,评估信息检索场景中模型使用搜索API时的事实准确性;(4)FACTS文本锚定榜(v2版),评估长文本回答是否基于给定文档进行锚定,其判定模型得到显著优化。各子榜单均采用自动化判定模型对回答进行评分,最终体系得分为四项得分的平均值,从而实现对模型整体事实性的稳健均衡评估。FACTS评估体系将持续更新维护,包含公开与私有测试集以兼顾公众参与及系统完整性,详情可见:https://www.kaggle.com/benchmarks/google/facts。
近期,4D高斯泼溅(4DGS)技术将3D高斯泼溅(3DGS)的高速渲染能力扩展至时间维度,实现了动态场景的实时渲染。然而,当前主要挑战在于如何对包含长程运动的动态视频进行建模——现有方法的简单扩展会导致内存急剧膨胀、时间闪烁现象,且无法处理随时间出现的遮挡或消失对象。为解决这些问题,我们提出了一种新型4DGS框架MoRel,其核心是采用基于锚点传递的双向混合(ARBB)机制。该方法通过在关键帧时间索引处逐步构建局部规范锚点空间,并在锚点层级建模帧间形变,从而增强时间一致性。通过学得关键帧锚点(KfA)间的双向形变,并借助可学习不透明度控制进行自适应混合,我们的方法有效缓解了时间不连续性与闪烁伪影。我们还提出了特征方差引导的分层致密化(FHD)方案,根据特征方差等级对KfA进行高效致密化,在保证渲染质量的同时控制内存增长。为系统评估模型处理真实世界长程4D运动的能力,我们新构建了包含长程4D运动的数据集SelfCap_{LR}。与现有动态视频数据集相比,该数据集在更广阔空间采集,具有更大的平均动态运动幅度。实验表明,MoRel在保持有限内存占用的同时,能够实现时间连贯、无闪烁的长程4D重建,展现了基于高斯动态表征的可扩展性与高效性。
视频统一模型在理解与生成方面展现出强大能力,但即使搭载了强大的内部视觉语言模型(VLM),其在推理感知型视频编辑任务中仍存在明显不足。我们认为这一差距源于两个因素:1)现有数据集难以支撑推理感知型视频编辑的训练与评估;2)模型推理能力与编辑能力之间存在固有割裂,导致丰富的理解成果无法有效指导编辑过程。弥合这一差距需要构建连接推理与视觉转换的集成化框架。为此,我们提出推理感知型视频编辑(RVE)任务,要求编辑过程中兼顾物理合理性与因果动态推理。为支持系统化评估,我们构建了RVE-Bench综合基准,包含两个互补子集:推理感知型视频编辑与上下文视频生成。这些子集覆盖了多维推理场景和真实世界编辑需求。在此基础上,我们提出ReViSE模型——一种将生成与评估统一于单一架构的自反思推理(SRF)框架。该模型通过内部VLM评估编辑后视频是否在逻辑上满足指令要求,从而提供内在反馈。这种差分反馈能在训练过程中持续优化生成器的推理行为。在RVE-Bench上的大量实验表明,ReViSE显著提升了编辑准确度与视觉保真度,在推理感知型视频编辑子集上的综合得分较现有最优方法提升32%。
视觉概念个性化旨在仅将特定图像属性(如身份、表情、光照和风格)迁移至未知场景。然而现有方法依赖通用图像编码器的整体嵌入表示,这种表示会纠缠多种视觉因素,导致难以分离单一属性,常引发信息泄露与合成不一致问题。为突破此局限,我们提出Omni-Attribute——首个开放词汇的图像属性编码器,专门用于学习高保真度的属性特定表征。我们的方法协同设计了数据与模型:(一)构建带有正负属性标注的语义关联图像对,显式指导编码器保留或抑制特定信息;(二)采用生成保真度与对比解耦双目标平衡的训练范式。实验表明,所得嵌入表示在开放词汇属性检索、个性化及组合生成任务中效果显著,在多项基准测试中达到最先进性能。
现实世界的人工智能软件工程需要编码智能体具备以下能力:在大规模代码库中进行推理、在长会话期间保持持久记忆、在测试阶段稳健协调复杂工具链。现有开源编码智能体虽具透明度,但在应对工业级工作负载时往往力有不逮;而专有编码智能体虽实践性能强劲,却在可扩展性、可解释性与可控性方面存在局限。我们推出孔子编码智能体(CCA),这是一款能在工业级规模运行的开源AI软件工程师。CCA构建于孔子SDK之上——该开源智能体开发平台围绕三个互补维度设计:智能体体验(AX)、用户体验(UX)和开发者体验(DX)。该SDK引入了具备分层工作记忆的统一编排器以实现长上下文推理,配备持久化笔记系统支持跨会话持续学习,并通过模块化扩展机制保障工具使用的稳健性。此外,元智能体通过"构建-测试-优化"循环自动完成智能体配置的合成、评估与优化,使其能快速适应新任务、新环境和新工具栈。基于孔子SDK这些机制实例化的CCA在真实软件工程任务中表现出色:在SWE-Bench-Pro基准测试中,CCA以54.3%的Resolve@1成绩刷新业界纪录,较现有编码智能体实现显著提升。孔子SDK与CCA共同为AI智能体提供了透明、可扩展、可复现的基础框架,弥合了研究原型与生产级系统之间的鸿沟,为工业级规模的智能体开发与部署提供支撑。
尽管大语言模型智能体已广泛应用于复杂交互任务,但隐私约束往往阻碍了动态环境中的集中式优化与协同进化。联邦学习虽在静态数据集上成效显著,但其在智能体开放式自主进化中的扩展研究仍属空白。直接应用标准联邦学习面临挑战:异构任务与稀疏的轨迹级奖励会引发严重梯度冲突,导致全局优化过程失稳。为此,我们提出Fed-SE框架——面向大语言模型智能体的联邦自进化系统。该框架构建"局部进化-全局聚合"双阶范式:在本地端,智能体基于筛选出的高回报轨迹进行参数高效微调,实现稳定梯度更新;在全局端,通过低秩子空间解耦环境特异性动态,有效聚合客户端更新以降低负迁移效应。在五个异构环境中的实验表明,Fed-SE相较联邦基线平均任务成功率提升约18%,验证了其在隐私受限部署场景下实现跨环境鲁棒知识迁移的有效性。
角色扮演智能体(RPAs)需同时掌握多项相互冲突的技能——遵循多轮指令、展现领域知识并保持统一的语言风格。现有研究要么依赖监督微调(SFT)方法导致过度拟合表面特征而降低输出多样性,要么采用强化学习(RL)策略难以实现多维度综合优化。我们提出多目标对齐框架(MOA),该强化学习框架通过多维度细粒度评估标准实现通用RPAs的优化。MOA引入创新的多目标优化策略,可同步训练多个细粒度评估维度以提升优化效果。此外,为解决模型输出多样性与质量的平衡问题,我们还采用了基于思维增强的离线策略引导机制。在PersonaGym和RoleMRC等挑战性基准测试上的实验表明,MOA能使80亿参数模型在多个维度上达到甚至超越GPT-4o和Claude等强基线模型,这证明了MOA在构建同时满足角色知识、人物风格、多样化场景和复杂多轮对话需求的RPAs方面具有巨大潜力。
具身智能的进步为智能仿人机器人开辟了巨大潜力。然而,视觉-语言-动作模型与世界模型的发展均受制于大规模多样化训练数据的稀缺。将网络规模的人类视频"机器人化"被证明是策略训练的有效解决方案,但现有方法主要是在第一人称视角视频上"叠加"机械臂,无法处理第三人称视频中复杂的全身运动与场景遮挡,因而难以实现人类动作的机器人化转换。为突破这一局限,我们提出X-Humanoid生成式视频编辑方法:通过将强大的Wan 2.2模型适配为视频到视频结构,并针对人形转换任务进行微调。该微调需要配对的人类-仿人视频数据,为此我们设计了可扩展的数据生成流程,利用虚幻引擎将社区资源转化为17小时以上的配对合成视频。基于训练完成的模型,我们对60小时Ego-Exo4D视频进行处理,生成并发布了包含超360万帧"机器人化"仿人视频的大规模数据集。定量分析与用户研究证实了本方法的优越性:69%的用户认为其运动一致性最佳,62.1%的用户认可其具身正确性最高。
近期基于视觉语言模型(VLM)的SVG生成方法取得了显著成果。然而,由于这类方法在解码过程中仅生成文本而缺乏视觉信号,往往难以处理复杂语义,导致生成的SVG图像在视觉吸引力与几何一致性方面存在不足。我们提出DuetSVG——一种统一的多模态模型,能够以端到端方式联合生成图像标记与对应的SVG标记。该模型在图像和SVG数据集上进行了联合训练。在推理阶段,我们采用新型测试时缩放策略,利用模型自身的视觉预测结果作为引导来提升SVG解码质量。大量实验表明,本方法在各类应用场景中均优于现有技术,生成的SVG图像兼具视觉保真度、语义对齐性和语法简洁性。