每日精选AI研究论文及翻译
尽管大语言模型在科学发现中展现出潜力,但现有研究主要聚焦于推理或反馈驱动的训练,而对生成式推理过程P(假设|背景知识)(P(h|b))的直接建模仍属空白。我们证明,由于从海量知识库中检索并组合灵感存在组合爆炸复杂度(O(N^k)),直接训练P(h|b)在数学上是不可行的。为突破此障碍,我们提出MOOSE-Star统一框架,实现可高效训练的推理扩展。该框架通过三重机制将最优情况下的复杂度从指数级降至对数级(O(log N)):(1)基于发现概率方程分解子任务进行训练;(2)采用动机引导的层次化搜索实现对数级检索并剪枝无关子空间;(3)利用有界组合操作提升对检索噪声的鲁棒性。为此我们发布TOMATO-Star数据集——包含108,717篇经分解的论文(消耗38,400 GPU小时)用于训练。进一步实验表明,当暴力采样遭遇"复杂度墙"时,MOOSE-Star仍能保持持续增长的测试时扩展性。
当前AI智能体已能灵活调用工具并执行复杂任务,但其长远发展仍受制于技能缺乏系统性积累与迁移的瓶颈。由于缺少统一的技能整合机制,智能体常常陷入"重复造轮子"的困境,在孤立场景中重复发现解决方案而无法有效利用既有策略。为突破这一局限,我们推出SkillNet——一个面向大规模AI技能创建、评估与管理的开放基础设施。SkillNet通过统一本体论框架构建技能体系,支持异构来源的技能创建、建立丰富的关联关系,并开展涵盖安全性、完备性、可执行性、可维护性与成本意识的多维评估。该基础设施整合了包含20万余技能的资源库、交互式平台及多功能Python工具包。在ALFWorld、WebShop和ScienceWorld上的实验表明,SkillNet能显著提升智能体性能,在多种骨干模型上平均奖励提升40%,执行步骤减少30%。通过将技能形式化为可进化、可组合的资产,SkillNet为智能体从短暂经验积累迈向持久能力精通奠定了坚实基础。
大型语言模型(LLM)智能体能够自动化数据科学工作流,但由于LLM在统计知识与工具检索方面存在不足,许多基于R语言实现的严谨统计方法仍未被充分利用。现有检索增强方法聚焦于函数级语义而忽略数据分布,导致检索结果欠佳。我们提出DARE(分布感知检索嵌入模型),这是一种轻量级即插即用检索模型,通过将数据分布信息融入函数表征来优化R包检索。主要贡献包括:(i)RPKB知识库——从8,191个高质量CRAN包中精心构建的R包知识库;(ii)DARE嵌入模型——融合分布特征与函数元数据以提升检索相关性的方法;(iii)RCodingAgent——面向R语言的LLM智能体,用于可靠生成R代码,并配套一套统计分析任务集以系统评估现实分析场景中的LLM智能体。实验表明,DARE在R包检索任务中NDCG@10达到93.47%,以显著更少的参数量优于当前最优开源嵌入模型达17%。将DARE集成至RCodingAgent可在下游分析任务中实现显著性能提升。本研究有助于缩小LLM自动化与成熟R统计生态系统之间的差距。
现实世界中的多模态智能体能够基于视觉证据解决多步骤工作流。例如,智能体可通过将接线照片与原理图关联,并利用在线文档验证修复方案来排查设备故障;或通过解读交通地图并在路线约束下核对时刻表来规划行程。然而,现有多模态基准主要评估单轮视觉推理或特定工具技能,未能全面体现实用智能体所需的真实性、视觉细节感知和长周期工具使用能力。我们推出AgentVista基准测试,面向通用多模态智能体,涵盖7大类25个子领域,将真实且细节丰富的视觉场景与自然混合工具使用相结合。任务要求跨模态的长周期工具交互,包括网页搜索、图像搜索、页面导航,以及同时支持图像处理与通用编程的代码操作。通过对前沿模型的综合评估,我们发现其在执行长周期多模态工具使用方面存在显著差距。即使评估中表现最佳的Gemini-3-Pro(配备工具)模型,整体准确率也仅为27.3%,且复杂实例可能需要超过25轮工具调用。我们期待AgentVista能加速开发出更强大可靠的多模态智能体,以应对现实世界中极具挑战性的问题求解。
模仿学习的规模化从根本上受限于数据收集效率。虽然手持式界面已成为野外数据采集的可扩展解决方案,但其主要以开环方式运行:操作者在不知晓底层策略弱点的情况下盲目收集演示数据,导致对关键状态分布的覆盖效率低下。相比之下,DAgger等交互式方法虽能有效解决协变量偏移问题,却依赖实体机器人执行,成本高昂且难以规模化。为平衡这一矛盾,我们推出RoboPocket——基于单部消费级智能手机即可实现无机器人即时策略迭代的便携系统。其核心创新在于通过增强现实轨迹预测实现远程推理框架,该系统能通过AR视觉预见可视化策略的预测轨迹。这种沉浸式反馈使收集者能主动识别潜在失败点,并将数据收集聚焦于策略薄弱区域,无需实体机器人参与。此外,我们构建了异步在线微调管道,可持续利用输入数据更新策略,在数分钟内实现学习闭环。大量实验表明,RoboPocket遵循数据缩放定律,相比离线缩放策略将数据效率提升一倍,突破了长期存在的效率瓶颈。更值得注意的是,在分布式环境中,我们的即时迭代循环仅需每人少量交互修正即可将样本效率提升高达2倍。项目页面与视频:https://robo-pocket.github.io。
人-物交互图像作为展现人与产品融合关系的视觉载体,在广告、电商及数字营销领域具有重要作用。此类图像生成的核心挑战在于确保产品细节的高保真还原。现有方法中,基于参考图的修复技术通过利用产品参考图像指导修复过程,提供了针对性解决方案,但仍在三个关键层面存在局限:缺乏多样化的大规模训练数据、现有模型难以聚焦产品细节保留,以及粗粒度监督无法实现精准引导。为解决这些问题,我们提出HiFi-Inpaint——一种专为人-物图像生成设计的新型高保真参考修复框架。该框架通过共享增强注意力(SEA)模块优化细粒度产品特征,并采用基于高频图谱的细节感知损失(DAL)实现像素级精准监督。此外,我们构建了包含4万样本的HP-Image-40K数据集,其样本通过自动筛选流程从合成数据中精选而得。实验结果表明,HiFi-Inpaint能够生成细节保留度极高的人-物交互图像,在各项指标上达到业界最优水平。
应选择何种多模态模型进行分类?先前研究指出,答案在于CLIP式的对比视觉语言模型(VLM),因其在零样本分类任务中表现卓越。相比之下,大型多模态模型(LMM)更适用于复杂任务。本文提出,这一结论忽略了LMM的一项重要能力——上下文学习。我们在多个封闭世界分类数据集上对前沿LMM进行基准测试,发现尽管其零样本性能低于CLIP,但配备少量上下文示例的LMM可匹配甚至超越带有缓存适配器的对比VLM(后者可视为VLM的“上下文学习”等效形式)。我们将该分析拓展至开放世界场景,其中LMM的生成式特性使其更适配此类任务。在这一挑战性场景下,当上下文信息不完善时,LMM表现欠佳。为解决该问题,我们提出CIRCLE——一种无需训练的简易方法,通过为上下文示例分配伪标签,并利用可用上下文自身进行迭代优化。大量实验表明,CIRCLE为开放世界分类建立了稳健基准,其性能超越VLM同类方法,彰显了LMM作为统一分类器的潜力,成为专用模型的灵活替代方案。
由于基准测试存在饱和性、主观性及泛化能力不足等问题,其可靠性正日益受到质疑。我们认为,评估模型主动获取信息的能力对衡量其智能水平至关重要。为此提出交互式基准测试框架——一种在预算约束下通过交互过程评估模型推理能力的统一范式。我们在两种场景中实现了该框架:交互式证明(模型通过与裁判互动推演逻辑与数学领域的客观真理)和交互式博弈(模型通过策略性推理实现长期效用最大化)。实验结果表明,交互式基准测试能对模型智能进行稳健且真实的评估,同时揭示出模型在交互场景中仍存在显著提升空间。项目页面:https://github.com/interactivebench/interactivebench
尽管视频生成技术已取得显著进展,但现有模型仍局限于表面合理性,缺乏对世界连贯统一的理解。先前的研究方法通常仅融入单一形式的世界相关知识,或依赖僵化的对齐策略引入额外知识。然而,单纯对齐单一世界知识不足以构建需要联合建模多维度异构要素(如物理常识、三维与时间一致性)的世界模型。为解决这一局限,我们提出DreamWorld——一个通过联合世界建模范式将互补性世界知识整合到视频生成器的统一框架,通过联合预测基础模型中的视频像素与特征来捕捉时序动态、空间几何及语义一致性。但直接优化这些异构目标会导致视觉不稳定性和时序闪烁问题。为此,我们提出一致性约束退火算法来在训练过程中渐进调节世界级约束,并采用多源内部引导机制在推理阶段强化已学习的世界先验。大量实验表明,DreamWorld显著提升了世界一致性,在VBench基准上以2.26分优势超越Wan2.1模型。代码将公开于https://github.com/ABU121111/DreamWorld{mypink{Github}}。
低比特注意力(如SageAttention)已成为加速模型推理的有效方法,但其在训练中的适用性仍不明确。在先前工作中,我们提出了SageBwd——一种可训练的INT8注意力机制,它在保持微调性能的同时对七个注意力矩阵乘法中的六个进行量化。然而,SageBwd在预训练阶段始终与全精度注意力(FPA)存在性能差距。本研究通过实验与理论分析揭示了该差距的成因,并证明SageBwd在预训练中可达到与全精度注意力相当的性能。我们获得以下重要结论:(i)QK归一化是大步长token训练稳定性的必要条件;(ii)量化误差主要源于反向传播的分数梯度dS;(iii)减少步长token数可使SageBwd在预训练中匹配FPA性能;(iv)K平滑对训练稳定性仍至关重要,而Q平滑在预训练中收益有限。
我们推出Timer-S1——一款强大的混合专家(MoE)时序基础模型,其总参数量达83亿,每个令牌激活参数为7.5亿,上下文长度达11.5K。为突破现有预训练时序基础模型的可扩展性瓶颈,我们在模型架构、数据集和训练流程三个维度实施序列化扩展策略。Timer-S1融合了稀疏TimeMoE模块与通用TimeSTP模块,通过序列令牌预测(STP)这一符合预测序列特性的通用训练目标,引入序列计算以提升长期预测能力,同时规避了传统逐令牌预测中高成本的滚动式推理和显著误差累积问题。为构建高质量无偏差训练数据集,我们构建了包含万亿时间点的TimeBench语料库,并采用精细数据增强技术以减轻预测偏差。我们进一步开创了包含持续预训练与长上下文扩展的后训练阶段,以增强短期与长上下文场景的性能。在大规模GIFT-Eval评测榜单中,Timer-S1作为预训练模型取得了最先进的预测性能,获得了最优的MASE与CRPS评分。Timer-S1将开源发布以推动后续研究。
当前视频生成模型因缺乏对动作如何影响三维场景的结构化理解,无法模拟三维动作的物理效应(如力学作用与机器人操控)。我们推出RealWonder系统,首次实现基于单张图像的实时动作条件视频生成。核心创新在于以物理模拟为中间桥梁:通过将连续动作转化为视频模型可处理的光流与RGB视觉表征,而非直接编码动作。RealWonder集成三大模块:单图像三维重建、物理模拟、以及仅需4步扩散的蒸馏视频生成器。该系统在480x832分辨率下达到13.2帧/秒,支持对刚体、可变形体、流体及颗粒材料进行力学交互、机器人操作与相机控制的实时探索。我们展望RealWonder将为视频模型在沉浸式体验、AR/VR及机器人学习等领域开辟新路径。代码与模型权重已公开于项目网站:https://liuwei283.github.io/RealWonder/
针对大语言模型(LLMs)的计算不变性后训练量化(PTQ)技术已取得显著进展,但将其应用于多模态大语言模型(MLLMs)仍面临重大挑战。本文以SmoothQuant为案例研究,揭示出两个关键问题:平滑错位与跨模态计算不变性。为解决这些问题,我们提出模态感知平滑量化(MASQuant)新框架,该框架包含两大创新:(1)模态感知平滑(MAS)技术,通过学习独立的模态特定平滑因子来避免平滑错位;(2)跨模态补偿(CMC)机制,利用SVD白化将多模态激活差异转换为低秩形式,从而解决跨模态计算不变性问题,实现跨模态的统一量化。MASQuant在双模态和三模态MLLMs上均展现出稳定的量化性能。实验结果表明,该算法在当前主流PTQ方法中具有竞争优势。源代码地址:https://github.com/alibaba/EfficientAI。
抓取是机器人实现物理世界交互的基础能力。人类凭借双手能够根据物体形状、尺寸及重量自主选择适宜的抓取策略,实现稳定抓取与后续操作。相比之下,当前机器人抓取技术仍存在局限,尤其在多策略场景下表现尤为明显。尽管针对平行夹爪和单手机器人的研究已取得显著进展,但双手灵巧抓取领域仍探索不足,其中数据匮乏是主要瓶颈。要实现能够承受外部力矩、符合物理规律与几何适配的抓取方案面临重大挑战。为此,我们提出UltraDexGrasp——一种面向双手机器人的通用灵巧抓取框架。该数据生成管道将基于优化的抓取合成与基于规划的示范生成相结合,产出跨多种抓取策略的高质量多样化轨迹。基于此框架,我们构建了UltraDexGrasp-20M大规模多策略抓取数据集,涵盖1,000个物体的2,000万帧数据。以此数据集为基础,我们进一步开发了以点云为输入的简洁高效抓取策略:通过单向注意力聚合场景特征,预测控制指令。该策略仅使用合成数据训练即可实现稳健的零样本仿真到现实迁移,在面对不同形状、尺寸和重量的新物体时保持稳定性能,在真实世界通用灵巧抓取任务中平均成功率达81.2%。为促进双手机器人抓取研究的发展,我们在https://github.com/InternRobotics/UltraDexGrasp开源了数据生成管道。
视觉变换器通过利用全局自注意力机制捕捉长距离依赖关系,在分类任务中取得了显著成功。然而,这种机制可能会削弱对分割等任务至关重要的细粒度空间细节。本研究旨在提升视觉变换器在完成标准图像级分类训练后的分割性能。具体而言,我们提出了一种简单而有效的附加模块,该模块能在保留视觉变换器图像识别能力的同时,显著提升分割任务表现。我们的方法采用可学习的高斯核调制自注意力机制,使注意力偏向相邻图像块。我们进一步优化图像块表征,以学习更优的块位置嵌入。这些改进促使标记聚焦局部上下文,确保空间位置产生有意义的表征,同时保持模型整合全局信息的能力。实验证明,在不改变训练策略或牺牲分类性能的前提下,我们的改进在三个基准测试中实现了显著的分割性能提升(例如ViT Tiny和Base在ADE20K数据集上分别提升超过6%和4%)。代码已开源:https://github.com/sinahmr/LocAtViT/。
推理模型会进行思维显化表达,但其输出内容大多属于噪声。我们提出OPSDC(策略上自蒸馏推理压缩法),该方法通过将模型自身的简洁推理行为蒸馏回模型内部,引导其以更精炼的方式进行推理。整个方法可归结为一个核心思想:对同一模型施加"保持简洁"的指令以获得教师逻辑值,并在学生自身推演过程中逐词最小化反向KL散度。无需标准答案、无需词元预算、无需难度评估器——仅需自蒸馏。然而这种简洁性背后隐藏着惊人的精巧:OPSDC能自动对简单问题实施大幅压缩,同时保留解决难题所需的审慎思考。在Qwen3-8B和Qwen3-14B模型上,我们在MATH-500数据集实现57-59%的词元压缩率,同时绝对准确率提升9-16个百分点。在AIME 2024测试中,14B模型以41%的压缩率获得10分提升。其奥秘何在?推理模型的输出不仅存在冗余——更会主动产生危害,每个不必要的词元都在不断放大错误。
我们提出一种基于强化学习的企业搜索智能体训练系统,在多种难以验证的智能搜索任务上实现了最优性能。本研究包含四项核心贡献:首先,我们推出KARLBench多能力评估套件,涵盖六大搜索场景——约束驱动实体搜索、跨文档报告合成、表格数值推理、穷尽式实体检索、技术文档程序推理及企业内部笔记事实聚合。其次,我们证明跨异构搜索行为训练的模型比针对单一基准优化的模型具有显著更好的泛化能力。第三,我们开发了采用长程推理与工具使用的智能合成流程,通过能力迭代增强的模型自举生成多样化、有依据的高质量训练数据。第四,我们提出基于迭代大批量离线策略RL的新型后训练范式,该范式具备样本高效性、对训练-推理引擎差异的鲁棒性,并可自然扩展至具有分布外泛化能力的多任务训练。与Claude 4.6和GPT 5.2相比,KARL在成本-质量与延迟-质量的权衡曲线上均达到帕累托最优,包括训练时未见的分布外任务。在充足测试计算资源下,其性能超越最强的闭源模型。这些结果表明,定制化合成数据与多任务强化学习的结合,能够为基于事实的推理任务打造高性价比的高性能知识智能体。
尽管当前视频理解数据集已扩展至小时级时长,但这些数据通常由密集拼接的片段构成,与自然、非脚本化的日常生活存在差异。为弥补这一鸿沟,我们推出MM-Lifelong数据集,专为多模态终身理解而设计。该数据集包含181.1小时影像素材,按日、周、月三级时间尺度构建以捕捉不同时间密度。大量评估揭示了现有范式的两大核心缺陷:端到端多模态大语言模型因上下文饱和而遭遇工作记忆瓶颈,而代表性智能体基线在稀疏的月度时间线导航中会出现全局定位崩溃。为此,我们提出递归多模态智能体(ReMA),通过动态记忆管理迭代更新递归信念状态,显著超越现有方法。最后,我们建立了可分离时间与领域偏差的数据集划分方案,为监督学习和分布外泛化的后续研究奠定严谨基础。
多模态目标重识别旨在利用不同模态间的互补信息来检索特定目标。然而,现有方法通常依赖硬令牌筛选或简单融合策略,易导致判别性特征丢失和背景干扰增强。为解决这些问题,我们提出STMI——一种新型多模态学习框架,包含三个核心组件:(1)分割引导特征调制模块通过SAM生成的掩码,利用可学习的注意力调制机制增强前景表征并抑制背景噪声;(2)语义令牌重分配模块采用可学习查询令牌与自适应重分配机制,在不丢弃任何令牌的前提下提取紧凑且信息丰富的表征;(3)跨模态超图交互模块构建跨模态统一超图以捕捉高阶语义关联。在公开基准数据集上的大量实验表明,我们提出的STMI框架在多模态重识别场景中具有显著的有效性和鲁棒性。
我们提出隐式粒子世界模型(LPWM),这是一种可扩展至真实世界多目标数据集并适用于决策任务的自监督对象中心化世界模型。LPWM能够直接从视频数据中自主发现关键点、边界框和物体掩码,从而在无监督条件下学习丰富的场景分解表示。该架构完全基于视频端到端训练,支持对动作、语言和图像目标进行灵活的条件控制。通过新型隐式动作模块,LPWM实现了随机粒子动力学的建模,并在多样化的真实世界与合成数据集上取得了最先进的性能。除随机视频建模外,LPWM还可直接应用于决策任务(包括目标条件模仿学习),相关验证已在论文中展示。代码、数据、预训练模型及视频推演结果详见:https://taldatech.github.io/lpwm-web
通过强化学习训练大语言模型使用搜索引擎进行推理时,存在一个根本性的信用分配难题:现有方法(如Search-R1)仅在完整多步轨迹结束后提供稀疏的结果奖励,导致难以将成功或失败归因于具体的推理和检索决策。过程奖励方法(如StepSearch)通过引入步骤级监督缓解了这一问题,但仍依赖启发式奖励(如与标准文档的TF-IDF重叠度),且每个样本仍需采样k条完整轨迹,梯度方差依然较高。我们提出SLATE框架,其核心包含两个互补思想:(1)截断式步骤级采样——生成k条共享共同前缀、仅在下个步骤产生分化的轨迹;(2)密集的LLM评判奖励——用能力强大的LLM评估器替代启发式评分,该评估器对每个推理步骤、搜索查询和答案进行质量评估,提供更丰富可靠的监督。我们理论证明在相同密集奖励结构下,对于T步轨迹,截断采样相比完整轨迹采样能将优势估计的方差降低最多T倍,从而获得方差更小、目标更明确的策略梯度。在七个问答基准测试上的实验表明,SLATE始终优于稀疏奖励和过程奖励基线方法,且在难度更高的多跳任务和小规模模型上提升最为显著。
工具增强型大语言模型(LLM)智能体有望将科学推理与计算能力相融合,但其在药物发现等高风险领域的应用正面临两大瓶颈:无约束的工具使用治理机制与薄弱的长周期可靠性。在依赖密集的药物研发流程中,自主智能体常会偏离至不可复现的轨迹,早期阶段的幻觉会以乘数效应导致下游连锁失败。为此,我们提出墨子——一种融合生成式人工智能灵活性与计算生物学确定性的双层架构。A层(控制平面)建立受监管的“监督者-执行者”层级体系,实现基于角色的工具隔离,将操作限制在受控行动空间内,并驱动基于反思的重规划机制。B层(工作流平面)将靶点识别到先导化合物优化的标准药物发现阶段,具象化为带状态的可组合技能图谱。该层通过严格数据契约与策略性“人在回路”检查点,在关键决策边界守护科学有效性。 墨子遵循“自由推理处理安全任务,结构化执行长周期流程”的设计原则,内置鲁棒性机制与溯源级审计功能,彻底规避误差累积。我们在生物医学智能体专用基准PharmaBench上的评估表明,该系统在流程协调精度上显著优于现有基线。通过端到端治疗案例研究,我们进一步验证了墨子驾驭巨大化学空间、执行严格毒性筛选、生成高竞争力虚拟候选分子的能力,成功将LLM从脆弱的对话者蜕变为可靠受控的科研协作者。
学习将源分布映射至目标分布的传输模型是机器学习中的经典问题,但科学应用日益需要能够泛化至训练时未见的源分布与目标分布的模型。我们提出分布条件化传输(DCT)框架,该框架通过学习的源分布与目标分布嵌入向量来条件化传输映射,从而实现对未见分布对的泛化。DCT还可支持分布预测问题的半监督学习:由于它能从任意分布对中学习,因此可借助仅在某单一条件下观测到的分布来提升传输预测性能。该框架与底层传输机制无关,支持从流匹配到基于分布散度的模型(如Wasserstein距离、MMD)等多种架构。我们通过合成基准测试及四个生物学应用验证了DCT的实际性能优势:单细胞基因组学中的批次效应迁移、质谱流式数据的扰动预测、造血过程中克隆转录动态的学习,以及T细胞受体序列进化建模。
在共享人类环境中运行的机器人不仅需要导航、交互和感知周围环境,还必须能解读并应对动态且往往不可预测的人类行为。尽管近期研究通过视觉语言模型(VLM)在增强机器人感知与指令遵循能力方面展现出潜力,但其处理多模态人机交互(HRI)复杂性的能力仍存在局限。针对这一挑战,我们提出一种轻量级的语言到视觉反馈模块,通过门控多层感知机(MLP)将图像标记的隐藏状态投影回视觉编码器输入端,实现基于文本上下文对场景的二次解析。我们在三项机器人核心任务上评估该方法:模拟环境导航(Habitat)、序列场景描述(Mementos-Robotics)以及人类意图识别(自建HRI数据集)。实验表明,该方法以不足3%的参数量增长使Qwen 2.5(7B)模型导航距离减少3.3%、描述得分提升0.057、识别准确率提高2.93%;Gemma 3(4B)和LLaVA OV 1.5(4B)在导航任务中表现不一,但在后两项任务中分别获得+0.111/+0.055的描述分提升和+10.81%/+4.79%的准确率增益。代码已开源:https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics