每日精選AI研究論文及翻譯
雖然大型語言模型在科學發現領域展現潛力,現有研究卻多聚焦於推論或反饋驅動的訓練,尚未探索生成式推理過程的直接建模——即假設基於背景的條件機率P(h|b)。我們證明由於從龐大知識庫中檢索與組合靈感存在組合複雜度(O(N^k))的固有難題,直接訓練P(h|b)在數學上是不可行的。為突破此障礙,我們提出MOOSE-Star統一框架,實現可追蹤的訓練與可擴展的推論。在最理想情況下,MOOSE-Star通過三項創新將複雜度從指數級降至對數級(O(log N)):(1) 基於發現機率方程分解出的子任務進行訓練;(2) 採用動機引導的階層式搜索實現對數級檢索並剪除無關子空間;(3) 運用有界組合技術提升對檢索噪聲的魯棒性。為支持此框架,我們發布TOMATO-Star資料集,包含108,717篇經分解的論文(耗費38,400 GPU小時)用於訓練。此外,我們發現當暴力取樣法遭遇「複雜度牆」時,MOOSE-Star能展現持續的測試時擴展能力。
當前的人工智慧代理已能靈活調用工具並執行複雜任務,但其長期發展仍受制於技能缺乏系統性積累與遷移的瓶頸。由於缺少統一的技能整合機制,代理經常「重複造輪子」,在孤立情境中重新發現解決方案,卻未能有效利用既有策略。為突破此限制,我們提出SkillNet——一個專為大規模創建、評估與組織AI技能而設計的開放基礎架構。SkillNet通過統一的本體論框架構建技能體系,支持從異構來源創建技能、建立豐富的關聯關係,並實施涵蓋安全性、完整性、可執行性、可維護性與成本意識的多維度評估。我們的基礎架構整合了包含逾20萬技能的資源庫、互動式平台及多功能Python工具包。在ALFWorld、WebShop和ScienceWorld上的實驗評估表明,SkillNet能顯著提升代理性能,在多種骨幹模型上平均獎勵提升40%,執行步驟減少30%。通過將技能形式化為可演化、可組合的資產,SkillNet為代理實現從短暫經驗到持久精通的躍遷奠定了堅實基礎。
大型語言模型(LLM)代理能夠自動化資料科學工作流程,但由於LLM在統計知識與工具檢索方面存在侷限,許多透過R語言實現的嚴謹統計方法仍未被充分利用。現有的檢索增強方法側重函數層級語義而忽略資料分佈特性,導致檢索結果次優。我們提出DARE(分佈感知檢索嵌入模型),這是一種輕量級即插即用的檢索模型,能將資料分佈資訊融入函數表徵以提升R套件檢索效能。本研究主要貢獻包括:(i)RPKB知識庫,從8,191個高品質CRAN套件中精煉構建的R套件知識庫;(ii)DARE嵌入模型,融合分佈特徵與函數元資料以提升檢索相關性;(iii)RCodingAgent專用代理,專為R語言設計的LLM代理,能可靠生成R程式碼,並配備一套統計分析任務集,用於在真實分析場景中系統性評估LLM代理。實證結果顯示,DARE在NDCG@10指標上達到93.47%,僅用顯著更少的參數即可在套件檢索任務上超越頂尖開源嵌入模型達17%。將DARE整合至RCodingAgent後,下游分析任務效能顯著提升。此研究有助於縮小LLM自動化與成熟R統計生態系統之間的差距。
現實世界中的多模態智能體能夠基於視覺證據解決多步驟工作流程。例如,智能體可通過將接線照片與電路圖關聯,並利用線上文檔驗證修復方案來排查設備故障;或通過解讀交通路線圖並在路徑規劃約束下核查時刻表來規劃行程。然而,現有的多模態基準主要評估單輪視覺推理或特定工具技能,未能充分體現實用智能體所需的真實性、視覺細微差異和長程工具使用能力。我們推出AgentVista基準測試,針對通用多模態智能體涵蓋7大類別下的25個子領域,將真實且細節豐富的視覺場景與自然混合工具使用相結合。任務要求跨模態的長程工具交互,包括網路搜索、圖像搜索、頁面導航,以及用於圖像處理和通用編程的程式碼操作。對前沿模型的綜合評估揭示其在執行長程多模態工具使用方面存在顯著差距。即使在評估中表現最佳的Gemini-3-Pro模型(配備工具),整體準確率僅達27.3%,而高難度實例可能需超過25輪工具調用。我們期待AgentVista能加速開發更具能力、更可靠的多模態智能體,以應對現實世界中極具挑戰性的問題解決場景。
模仿學習的規模化發展從根本上受制於資料收集的效率。雖然手持式介面已成為野外資料獲取的可擴展解決方案,但其主要以開環模式運行:操作者在不知曉底層策略弱點的情況下盲目收集示範資料,導致關鍵狀態分佈的覆蓋效率低下。相比之下,DAgger等互動式方法雖能有效解決協變量偏移問題,卻依賴實體機器人執行,成本高昂且難以擴展。為權衡這一矛盾,我們推出RoboPocket——一款利用單個消費級智慧型手機實現無機器人即時策略迭代的便攜系統。其核心創新在於通過擴增實境視覺預覽技術可視化策略預測軌跡的遠端推理框架,這種沉浸式回饋能讓收集者主動識別潛在失誤,並將資料收集聚焦於策略薄弱區域,無需實體機器人參與。此外,我們設計了非同步線上微調管道,可持續利用輸入資料更新策略,在數分鐘內實現學習閉環。大量實驗表明,RoboPocket遵循資料縮放定律,相較離線縮放策略將資料效率提升一倍,突破了長期存在的效率瓶頸。更值得注意的是,我們的即時迭代迴圈在分散式環境中僅需每人少量互動修正,即可將樣本效率提升最高達2倍。項目頁面與影片:https://robo-pocket.github.io。
人與產品互動圖像作為展現人與產品融合的重要媒介,在廣告、電子商務和數位行銷領域具有關鍵作用。生成此類圖像的核心挑戰在於確保產品細節的高保真度還原。在現有範式中,基於參考圖像的修復技術通過利用產品參考圖來引導修復過程,提供了針對性解決方案,但仍在三個關鍵方面存在侷限性:缺乏多樣化的大規模訓練數據、現有模型難以專注於產品細節保留,以及粗粒度監督無法實現精確引導。為解決這些問題,我們提出HiFi-Inpaint——專為生成人與產品互動圖像設計的新型高保真參考修復框架。該框架引入共享增強注意力機制來優化細粒度產品特徵,並採用基於高頻圖譜的細節感知損失函數實現像素級精確監督。此外,我們構建了包含4萬個樣本的新數據集HP-Image-40K,其中樣本通過自動化過濾流程從自合成數據中篩選生成。實驗結果表明,HiFi-Inpaint能實現細節保留度極高的人與產品互動圖像生成,達到當前最先進的性能水平。
在分類任務中應選用何種多模態模型?先前研究指出,基於CLIP的對比式視覺語言模型(VLM)因其在零樣本分類中的卓越表現而成為首選,而大型多模態模型(LMM)更適用於複雜任務。本文主張此觀點忽略了LMM的一項關鍵能力:情境學習。我們在多樣化數據集上對頂尖LMM進行閉集分類基準測試,發現儘管其零樣本性能低於CLIP,但只需少量情境示例的LMM即可媲美甚至超越配備緩存適配器的對比式VLM(後者可視為VLM的「情境學習」等效方案)。我們進一步將分析延伸至開放世界場景,其中LMM的生成式特性使其更適合該任務。在此挑戰性情境下,當提供不完善的上下文信息時,LMM會表現不佳。為解決此問題,我們提出CIRCLE——一種無需訓練的簡易方法,通過為情境示例分配偽標籤,並利用可用上下文自身進行迭代優化。大量實驗表明,CIRCLE為開放世界分類建立了強健基準,性能超越VLM同類模型,彰顯LMM作為統一分類器的潛力,以及其作為專業化模型的靈活替代方案。
由於飽和度、主觀性及泛化能力不足等問題,標準基準測試已變得越來越不可靠。我們主張,評估模型主動獲取資訊的能力對於衡量其智能水平至關重要。為此,我們提出「互動式基準測試」——一種在預算限制下透過互動過程評估模型推理能力的統一評估範式。我們在兩種情境中具體實現了該框架:其一是「互動式證明」,模型透過與評判者互動來推導邏輯與數學領域的客觀真理或答案;其二是「互動式遊戲」,模型需進行策略性推理以最大化長期效用。實驗結果表明,互動式基準測試能對模型智能提供穩健且真實的評估,並揭示出模型在互動情境中仍有顯著改進空間。項目頁面:https://github.com/interactivebench/interactivebench
儘管影片生成技術已取得顯著進展,現有模型仍侷限於表層合理性,缺乏對世界連貫且統一的認知。先前方法通常僅納入單一形式的世界相關知識,或依賴僵硬的對齊策略來引入額外知識。然而,單一世界知識的對齊不足以構建需要聯合建模多個異構維度(如物理常識、3D與時間一致性)的世界模型。為解決此侷限性,我們提出DreamWorld——一個透過聯合世界建模範式將互補性世界知識整合到影片生成器的統一框架,通過聯合預測基礎模型中的影片像素與特徵來捕捉時間動態、空間幾何與語義一致性。但直接優化這些異構目標會導致視覺不穩定與時間閃爍問題。為此,我們提出一致性約束退火法,在訓練期間漸進調控世界級約束,並透過多源內部引導在推理階段強化已學習的世界先驗。大量實驗表明,DreamWorld顯著提升世界一致性,在VBench基準上以2.26分優勢超越Wan2.1。程式碼將公開於https://github.com/ABU121111/DreamWorld{mypink{Github}}。
低精度注意力機制(如SageAttention)已成為加速模型推理的有效方法,但其在訓練階段的適用性仍缺乏深入研究。在先前工作中,我們提出了可訓練的INT8注意力機制SageBwd,該方法在保持微調性能的同時,對七個注意力矩陣乘法中的六個進行量化。然而,SageBwd在預訓練階段始終與全精度注意力(FPA)存在性能差距。本研究深入探討了該差距的成因,並證明SageBwd在預訓練階段可達到與全精度注意力相當的性能。通過實驗與理論分析,我們得出以下重要結論:(i)QK歸一化對大規模單步令牌數的穩定訓練至關重要;(ii)量化誤差主要來源於反向傳播中的分數梯度dS;(iii)降低單步令牌數可使SageBwd在預訓練中匹配FPA性能;(iv)K平滑對訓練穩定性仍不可或缺,而Q平滑在預訓練階段的效益有限。
我们推出Timer-S1——一款强大的专家混合(MoE)时间序列基础模型,其总参数量达83亿,每个令牌激活参数为7.5亿,上下文长度达11.5K。为突破现有预训练时间序列基础模型的可扩展性瓶颈,我们在模型架构、数据集和训练流程三个维度实施序列化扩展策略。该模型集成稀疏TimeMoE模块与通用TimeSTP模块,通过序列令牌预测(STP)这一符合预测序列特性的通用训练目标,引入序列计算以提升长期预测能力,同时避免传统逐令牌预测中耗能的滚动式推理与显著误差累积。为构建高质量无偏差训练数据集,我们精心整理包含万亿时间点的TimeBench语料库,并应用精细数据增强技术以缓解预测偏差。我们进一步开创包含持续预训练与长上下文扩展的后训练阶段,显著提升短期与长上下文场景性能。在大规模GIFT-Eval评测榜单中,Timer-S1作为预训练模型取得最优MASE与CRPS评分,实现业界领先的预测性能。Timer-S1将开源发布以促进后续研究。
当前视频生成模型因缺乏对动作如何影响三维场景的结构性理解,无法模拟三维动作的物理后果(如作用力与机器人操控)。我们推出RealWonder——首个基于单张图像实现动作条件视频生成的实时系统。其核心创新在于将物理模拟作为中间桥梁:通过物理引擎将连续动作转化为视频模型可处理的光流与RGB视觉表征,而非直接编码动作。该系统集成三大模块:单图像三维重建、物理模拟、以及仅需4步扩散的蒸馏视频生成器。在480×832分辨率下可实现13.2帧/秒的实时生成,支持对刚性物体、可变形体、流体及颗粒材料进行作用力交互、机器人操作和摄像机控制的动态探索。我们展望RealWonder将为视频模型在沉浸式体验、AR/VR及机器人学习等领域开辟新路径。代码与模型权重已公开于项目网站:https://liuwei283.github.io/RealWonder/
针对大语言模型(LLMs)的计算不变性后训练量化(PTQ)技术已取得显著进展,然而将其应用于多模态大语言模型(MLLMs)仍面临重大挑战。本文以SmoothQuant为案例进行研究,识别出两个关键问题:平滑错位与跨模态计算不变性。为解决这些问题,我们提出模态感知平滑量化(MASQuant)新框架,该框架引入(1)模态感知平滑(MAS)技术,通过学习独立的模态特定平滑因子来避免平滑错位;(2)跨模态补偿(CMC)机制,通过SVD白化将多模态激活差异转换为低秩形式,从而解决跨模态计算不变性问题,实现跨模态的统一量化。MASQuant在双模态和三模态MLLMs上均展现出稳定的量化性能。实验结果表明,该算法在当前主流PTQ方法中具有竞争优势。源代码地址:https://github.com/alibaba/EfficientAI。
抓取是机器人实现物理交互的基础能力。人类凭借双手能够根据物体形状、尺寸及重量自主选择适宜的抓取策略,实现稳健抓取及后续操作。相较之下,当前机器人抓取技术仍存在局限,尤其在多策略场景中。尽管针对平行夹爪和单手机器人的研究已取得显著进展,但双手灵巧抓取领域仍待探索,其中数据匮乏是主要瓶颈。要实现能抵抗外部力矩的物理合理且几何贴合式抓取面临重大挑战。为此,我们提出UltraDexGrasp——一种面向双手机器人的通用灵巧抓取框架。该数据生成管道将基于优化的抓取合成与基于规划的示教生成相结合,产出跨多种抓取策略的高质量多样化轨迹。基于此框架,我们构建了UltraDexGrasp-20M大规模多策略抓取数据集,涵盖1,000个物体的2,000万帧数据。以此为基础,我们进一步开发了以点云为输入、通过单向注意力聚合场景特征并预测控制指令的简洁高效抓取策略。该策略仅通过合成数据训练即可实现稳健的零样本仿真到现实迁移,在面对不同形状、尺寸和重量的新物体时保持稳定成功率,在实际通用灵巧抓取任务中平均成功率高达81.2%。为促进双手机器人抓取研究,我们在https://github.com/InternRobotics/UltraDexGrasp开源了数据生成管道。
视觉变换器通过利用全局自注意力机制捕捉长距离依赖关系,在分类任务中取得了显著成功。然而,这种机制可能会削弱对分割等任务至关重要的细粒度空间细节。本研究旨在提升视觉变换器在完成标准图像级分类训练后的分割性能。具体而言,我们提出了一种简单而有效的附加模块,在保持视觉变换器图像级识别能力的同时,显著提升了分割任务的表现。该方法通过可学习的高斯核对自注意力进行调制,使注意力偏向相邻图像块。我们还优化了图像块表征以学习更佳的位置嵌入。这些改进既能引导标记聚焦局部上下文并确保空间位置具有有意义的表征,又不会削弱模型整合全局信息的能力。实验证明我们的改进具有显著效果:在三个基准数据集上(如ViT Tiny和Base在ADE20K数据集上分别提升超过6%和4%),无需改变训练策略或牺牲分类性能即可实现分割性能的大幅提升。代码已开源:https://github.com/sinahmr/LocAtViT/。
推理模型会进行思维外化,但其输出内容大多属于信息噪声。我们提出的OPSDC(策略上自蒸馏推理压缩法)通过将模型自身的简洁推理行为蒸馏回模型内部,引导模型实现更凝练的推理。该方法可归结为一个核心思想:通过"保持简洁"的指令引导同一模型生成教师逻辑值,并在学生模型自身推演中实施逐标记反向KL最小化。无需标准答案、无需标记预算、无需难度评估器,仅需自蒸馏。然而这种简洁性背后蕴藏着惊人的精巧:OPSDC能自动对简单问题实施激进压缩,同时保留难题所需的审慎思考。在Qwen3-8B和Qwen3-14B模型上,我们在MATH-500数据集实现57-59%的标记压缩率,同时绝对准确率提升9-16个百分点。在AIME 2024测试中,140亿参数模型以41%的压缩率获得10分提升。其奥秘何在?推理模型产生的多数内容不仅是冗余的——更会随着每个多余标记不断放大错误,产生主动危害。
我们提出了一种通过强化学习训练企业搜索智能体的系统,该系统在多样化难以验证的智能搜索任务套件中实现了最先进性能。我们的工作有四个核心贡献:首先,我们推出了KARLBench评估套件,涵盖六大搜索能力维度,包括约束驱动的实体搜索、跨文档报告合成、表格数值推理、穷尽式实体检索、技术文档程序性推理以及企业内部笔记的事实聚合。其次,我们证明跨异构搜索行为训练的模型比针对单一基准优化的模型具有显著更好的泛化能力。第三,我们开发了采用长程推理和工具使用的智能合成流程,通过逐步增强的模型进行迭代自举,生成多样化、有依据且高质量的训练数据。第四,我们提出基于迭代大批量离线策略RL的新型后训练范式,该范式具备样本高效性、对训练-推理引擎差异的鲁棒性,并能自然扩展到具有分布外泛化能力的多任务训练。与Claude 4.6和GPT 5.2相比,KARL在成本-质量和延迟-质量的权衡关系上均实现帕累托最优,包括训练期间未见过的分布外任务。在充足测试计算资源下,其性能超越最强的闭源模型。这些结果表明,定制化合成数据与多任务强化学习相结合,能够为基于事实的推理任务打造高性价比的高性能知识智能体。
尽管当前视频理解数据集已扩展至小时级时长,但这些数据集通常由密集拼接的片段构成,与自然状态下的非剧本化日常生活存在差异。为弥补这一差距,我们推出了MM-Lifelong数据集,专为多模态终身理解任务而设计。该数据集包含181.1小时影像素材,按日、周、月三级时间尺度构建以捕捉不同时间密度下的特征。大量评估揭示了现有范式的两大关键缺陷:端到端多模态大模型因上下文饱和而遭遇工作记忆瓶颈,而代表性智能体基线在处理稀疏的月尺度时间线时会出现全局定位崩溃。针对此问题,我们提出递归多模态智能体(ReMA),通过动态记忆管理迭代更新递归信念状态,显著超越现有方法。最后,我们建立了可分离时间偏差与领域偏差的数据集划分方案,为监督学习与分布外泛化的后续研究奠定严谨基础。
多模态目标重识别旨在利用不同模态间的互补信息来检索特定目标。然而,现有方法通常依赖硬令牌筛选或简单融合策略,容易导致判别性特征丢失并增加背景干扰。为解决这些挑战,我们提出STMI——一种新型多模态学习框架,包含三个核心组件:(1)分割引导特征调制模块:通过SAM生成的掩码,利用可学习的注意力调制机制增强前景表征并抑制背景噪声;(2)语义令牌重分配模块:采用可学习查询令牌与自适应重分配机制,在不丢弃任何令牌的前提下提取紧凑且信息丰富的表征;(3)跨模态超图交互模块:构建跨模态统一超图以捕捉高阶语义关联。在公开基准数据集上的大量实验表明,我们提出的STMI框架在多模态重识别场景中具有显著的有效性和鲁棒性。
我们提出隐式粒子世界模型(LPWM),这是一种可扩展至真实世界多物体数据集并适用于决策任务的自监督物体中心世界模型。LPWM能够直接从视频数据中自主发现关键点、边界框和物体掩码,从而无需监督即可学习丰富的场景分解。我们的架构完全基于视频进行端到端训练,支持对动作、语言和图像目标的灵活条件控制。通过新颖的隐式动作模块,LPWM实现了随机粒子动力学建模,并在多样化的真实世界和合成数据集上取得了最先进的结果。除了随机视频建模,LPWM还可直接应用于决策任务(包括目标条件模仿学习),正如我们在论文中所展示的。代码、数据、预训练模型和视频推演结果已开源:https://taldatech.github.io/lpwm-web
基於強化學習訓練大語言模型進行搜索引擎推理時,存在一個根本性的信用分配難題:現有方法(如Search-R1)僅在完整多步軌跡結束後提供稀疏結果獎勵,導致難以將成功或失敗歸因於具體的推理與檢索決策。過程獎勵方法(如StepSearch)通過引入步驟級監督緩解此問題,但仍依賴啟發式獎勵(如與標準文檔的TF-IDF重疊度),且每個樣本需採樣k條完整軌跡,梯度方差居高不下。我們提出SLATE框架,其基於兩個互補思想:(1)截斷式步驟級採樣——生成k條共享共同前綴、僅在下一步產生分歧的軌跡;(2)密集型LLM評判獎勵——用能力強大的LLM評估器替代啟發式評分,對每個推理步驟、搜索查詢及答案進行質量評估,提供更豐富可靠的監督。我們從理論上證明:在相同密集獎勵結構下,對於T步軌跡,截斷採樣可將優勢估計的方差較全軌跡採樣降低最多T倍,從而獲得方差更低、目標更明確的策略梯度。在七個問答基準上的實驗表明,SLATE始終優於稀疏獎勵與過程獎勵的基線方法,且在難度更高的多跳任務和小型模型上提升最為顯著。
工具增强型大语言模型(LLM)智能体有望将科学推理与计算能力相融合,但其在药物发现等高风险领域的应用正面临两大关键瓶颈:无约束的工具使用治理机制与薄弱的长周期可靠性。在依赖关系复杂的药物研发流程中,自主智能体常会偏离至不可复现的运行轨迹——早期阶段的幻觉误差会通过级联效应导致下游环节的连锁失效。为此,我们提出墨子系统,该双层级架构融合了生成式人工智能的灵活性与计算生物学的确定性严谨度。A层(控制平面)建立受监管的监督者-工作者层级体系,通过基于角色的工具隔离机制限定执行动作空间,并驱动基于反思的重新规划;B层(工作流平面)将靶点识别至先导化合物优化等标准药物发现阶段,具象化为具状态可组合的技能图谱。该层级通过严格数据契约与策略性人工介入检查点,在关键决策边界守护科学有效性。 基于"自由推理处理安全任务,结构化执行应对长周期流程"的设计原则,墨子系统内置鲁棒性机制与溯源级审计功能,彻底规避误差累积。我们在生物医学智能体专用基准测试平台PharmaBench上的评估表明,该系统在流程协调精度上显著优于现有基线。通过端到端治疗案例研究,我们进一步验证了墨子系统在探索巨大化学空间、执行严格毒性筛选及生成高竞争力计算机候选分子方面的能力,成功将LLM从脆弱的对话者转型为可靠受控的科研协作者。
学习将源分布映射至目标分布的传输模型是机器学习中的经典问题,但科学应用日益需要能够泛化至训练时未见的源分布与目标分布的模型。我们提出分布条件化传输(DCT)框架,该框架通过源分布与目标分布的嵌入表示来条件化传输映射,从而实现对未见分布对的泛化能力。DCT还可用于分布预测问题的半监督学习:由于它能从任意分布对中学习,因此可借助仅单侧条件观测到的分布来提升传输预测性能。该框架与底层传输机制无关,支持从流匹配到基于分布散度的模型(如Wasserstein距离、MMD)等多种架构。我们通过合成基准测试及四个生物学应用验证了DCT的实际性能优势:单细胞基因组学中的批次效应迁移、质谱流式数据的扰动预测、造血过程中克隆转录动态的学习,以及T细胞受体序列进化建模。
在人类共享环境中运行的机器人不仅需要导航、交互和感知周围环境,还必须能解读并应对动态且往往不可预测的人类行为。尽管近期研究显示,利用视觉语言模型(VLM)可提升机器人感知与指令执行能力,但其在处理多模态人机交互(HRI)复杂性方面仍存在局限。基于此挑战,我们提出一种轻量级语言到视觉的反馈模块,通过门控多层感知机(MLP)将图像标记的隐藏状态投影回编码器输入端,促发在文本语境下重新解读场景的二次处理。我们在三项机器人核心任务上评估该方法:模拟环境导航(Habitat)、序列场景描述(Mementos-Robotics)以及人类意图识别(自建HRI数据集)。结果表明,该方法使用不足3%的额外参数,使Qwen 2.5(7B)模型的导航距离减少3.3%、描述得分提升0.057、识别准确率提高2.93%;Gemma 3(4B)和LLaVA OV 1.5(4B)在导航任务中表现不一,但在后两项任务上分别获得+0.111/+0.055的描述分提升和+10.81%/+4.79%的准确率增益。代码已开源:https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics