每日精選AI研究論文及翻譯
我們推出SAM 3D——一個基於視覺的生成式3D物體重建模型,能從單張影像預測幾何結構、紋理材質與空間佈局。該模型在自然場景影像中表現卓越,尤其擅長處理常見遮擋與場景雜亂的狀況,並能有效利用上下文線索進行視覺識別。我們通過人機協同標註流程來實現這一目標,該流程可標註物體形狀、紋理和姿態,從而大規模生成視覺基礎紮實的3D重建數據。我們採用現代化多階段訓練框架,結合合成預訓練與真實世界對齊技術,突破3D「數據壁壘」進行模型學習。相較近期研究成果,本方法取得顯著提升,在真實物體與場景的人類偏好測試中獲得至少5:1的勝率。我們將公開原始碼與模型權重、線上演示平台,以及用於野外環境3D物體重建的新挑戰性基準數據集。
大型語言模型(LLM)代理通常透過強化學習(RL)進行訓練,但其發展受到人類標註數據依賴性的制約,這不僅限制了可擴展性,更將人工智慧束縛於人類既有知識框架。現有的自我進化框架雖提供替代方案,但普遍受制於模型的固有能力與單輪互動模式,難以發展涉及工具使用或動態推理的複雜課程體系。我們提出 Agent0——一個完全自主的框架,透過多步驟協同進化與無縫工具整合,實現無需外部數據的高性能代理進化。Agent0 在源自同一基礎 LLM 的兩個代理間建立共生競爭機制:課程代理負責提出漸進式的前沿難題,而執行代理則學習解決這些任務。我們整合外部工具以增強執行代理的問題解決能力,此能力提升反過來促使課程代理構建更複雜、具工具意識的任務。透過這種迭代過程,Agent0 建立了自我強化的循環,持續生成高品質課程。實驗結果顯示,Agent0 顯著提升推理能力,使 Qwen3-8B-Base 模型在數學推理任務上提升 18%,通用推理基準測試中提升 24%。程式碼已公開於:https://github.com/aiming-lab/Agent0。
在影片生成模型中,首幀究竟扮演什麼角色?傳統觀點將其視為影片時空序列的起點,僅是後續動畫生成的種子。本研究揭示了截然不同的視角:影片模型隱性地將首幀作為概念記憶緩衝區,儲存視覺實體以供後續生成階段重複調用。基於此發現,我們證明僅需20-50個訓練樣本,無需調整模型架構或進行大規模微調,即可在多樣化場景中實現強健且通用的影片內容客製化。這項發現揭示了影片生成模型在參照式影片客製化方面長期被忽視的強大能力。
近期推理模型的突破性進展,通過延伸的思維鏈推演在文本與視覺領域取得了顯著成就。然而音頻語言模型領域卻存在一個令人困惑的現象:模型在極簡或無需推理的情況下表現更優,這引發了根本性疑問——音頻智能是否真能受益於深思熟慮?我們推出首個成功解鎖音頻領域推理能力的Step-Audio-R1模型。透過我們提出的模態錨定推理蒸餾框架,該模型學會生成與音頻特徵真實錨定的推理鏈,而非產生脫離聲學特徵的虛幻推演。我們的模型展現出強大的音頻推理能力,在涵蓋語音、環境音與音樂的綜合音頻理解與推理基準測試中,不僅超越Gemini 2.5 Pro,更達到與頂尖模型Gemini 3 Pro相媲美的性能。這些成果證明,當推理能力被適當錨定時,即可成為跨模態的可遷移能力,使延伸推演從音頻智能的負擔轉化為強大優勢。Step-Audio-R1作為首個成功的音頻推理模型,為建構真正跨感官模態的深度推理系統開闢了新路徑。
儘管取得了顯著進展,多模態基礎模型在空間智能方面仍存在明顯不足。本研究通過擴展多模態基礎模型規模,在SenseNova-SI系列中培育空間智能能力。該系列基於成熟的視覺理解模型(如Qwen3-VL和InternVL3)與統一理解生成模型(如Bagel),採用系統化方法構建了包含800萬個多樣化數據樣本的SenseNova-SI-8M數據集,並按嚴格的空間能力分類體系進行篩選。SenseNova-SI在廣泛的空間智能基準測試中展現出突破性性能:VSI-Bench達68.7%、MMSI達43.3%、MindCube達85.6%、ViewSpatial達54.6%、SITE達50.1%,同時保持強大的通用多模態理解能力(如MMBench-En達84.9%)。更重要的是,我們分析了數據規模化的影響,探討多樣化數據訓練引發的湧現泛化能力早期跡象,解析過擬合與語言捷徑風險,提出空間思維鏈推理的初步研究,並驗證下游應用潛力。SenseNova-SI為持續推進項目,本報告將持續更新。所有新訓練的多模態基礎模型均公開釋出,以促進該領域的深入研究。
近期,在生成式視頻模型領域,如Veo-3的進展,展現了令人驚訝的零樣本推理能力,這促使對系統化且可靠的評估需求日益增長。我們推出了V-ReasonBench,這是一個旨在評估視頻推理能力的基準測試,涵蓋四大關鍵維度:結構化問題解決、空間認知、基於模式的推理以及物理動力學。該基準測試由合成與真實世界的圖像序列構建而成,提供了一系列多樣化且答案可驗證的任務,這些任務具有可重現性、可擴展性及明確性。對六種尖端視頻模型的評估揭示了各維度間的顯著差異,特別是在結構化、空間、基於模式及物理推理方面表現出強烈變化。我們進一步將視頻模型與強大的圖像模型進行比較,分析了常見的幻覺行為,並研究了視頻時長如何影響幀間鏈推理。總體而言,V-ReasonBench為衡量視頻推理能力提供了一個統一且可重現的框架,旨在支持開發出具有更可靠、更貼近人類推理能力的模型。
雖然語言模型已在許多現實應用中發揮影響力,但影片生成技術目前仍主要侷限於娛樂領域。鑑於影片具備展現物理世界資訊的先天優勢(例如僅透過文字教人打領帶的困難度),我們發現可將影片拓展為「下一事件預測」的新型態答案模態,並將其形式化為「影片下一事件預測」任務。傳統NEP任務需輸入包含程序性或預測性問題的影片,以文字形式預測下一事件;而VNEP則要求生成動態影片回應。這種從「講述」到「展示」的轉變,能為程序性學習與創意探索提供更直觀且客製化的解答。然而,現有模型在此任務上面臨挑戰,因其需具備多模態輸入理解、指令條件推理,以及生成視覺與語義連貫影片的能力。為此,我們提出VANS模型,透過強化學習對齊視覺語言模型與影片擴散模型,以實現VNEP任務。VANS的核心是我們提出的Joint-GRPO機制,能協調VLM與VDM作為協同單元運作:基於對各自輸出的共享獎勵,該機制既優化VLM生成兼具準確性與可視化友善度的描述,同時引導VDM生成符合描述與輸入視覺脈絡的影片。為支持此學習框架,我們構建了專屬資料集VANS-Data-100K。在程序性與預測性基準測試中的實驗表明,VANS在影片事件預測與可視化方面均達到最先進性能。程式碼已發佈於https://github.com/KlingTeam/VANS。
針對多種規模與部署目標訓練大型語言模型家族的成本極高,需要為每個不同規模的模型進行獨立訓練。近期透過剪枝與知識蒸餾的模型壓縮技術雖降低了成本,但每個壓縮模型仍需消耗數千億標記的訓練成本。本文提出Nemotron Elastic框架,用於構建面向推理的混合型Mamba-Attention架構LLM,該框架能在單一父模型中嵌入多個嵌套子模型,每個子模型皆針對不同部署配置與預算進行優化。這些子模型與父模型共享權重,且可在部署時零射擊提取,無需額外訓練或微調。我們透過端到端訓練的路由器實現此功能,該路由器與專為推理模型設計的兩階段訓練課程緊密耦合。此外,我們提出保留Mamba結構約束的群組感知SSM彈性化技術、異質性MLP彈性化技術、基於歸一化MSE的層重要性評估以改進深度選擇,以及實現同步多預算優化的知識蒸餾技術。我們將Nemotron Elastic應用於Nemotron Nano V2 12B模型,僅使用1100億訓練標記即可同步生成9B與6B模型:相比從頭訓練模型家族實現超過360倍成本壓縮,相較現有壓縮技術亦有約7倍優勢。所有嵌套模型在準確度上均達到或超越現有技術水平。更重要的是,有別於其他壓縮方法,我們的嵌套特性可實現「多合一」推理模型,使部署記憶體消耗在模型家族數量增加時保持恆定。
我們開源了 MiMo-Embodied——首個成功整合自動駕駛與具身智能兩大領域,並實現最優性能的跨具身基礎模型。MiMo-Embodied 在具身智能的任務規劃、功能預測與空間理解等 17 項基準測試中刷新紀錄,同時在自動駕駛的環境感知、狀態預測與行駛規劃等 12 項基準中表現卓越。在這些任務中,MiMo-Embodied 顯著超越了現有的開源模型、閉源模型及專業化基準模型。我們的研究表明,通過多階段學習、精構數據建構以及思維鏈/強化學習微調,這兩個領域展現出強烈的正向遷移效應並相互強化。我們詳細分析了模型設計與訓練方法,以推動後續研究。代碼與模型已開源於:https://github.com/XiaomiMiMo/MiMo-Embodied。
视觉-语言-动作(VLA)模型在机器人操控领域表现卓越,但其性能受限于对专家示范的严重依赖,导致存在示范偏差问题。强化学习(RL)作为克服这些局限的关键后训练策略,当前包括群体优化方法在内的VLA-RL方法却因严重的奖励稀疏问题而效能受限。仅依赖二元成功指标会浪费失败轨迹中的宝贵信息,造成训练效率低下。为此,我们提出自参照策略优化(SRPO)这一新型VLA-RL框架。SRPO通过将当前训练批次中生成的成功轨迹作为自我参照,无需外部示范或人工奖励设计,即可为失败尝试分配渐进式奖励。其核心创新在于利用潜在世界表征来鲁棒地衡量行为进展:通过世界模型潜在空间中的压缩化、可迁移编码,而非依赖原始像素或领域特异性微调,这些表征能自然捕获跨环境进展模式,实现精准的通用化轨迹比较。在LIBERO基准测试中的实证表明,SRPO从成功率48.9%的监督基线出发,仅用200步强化学习就将成功率提升至99.2%的新标杆,相对提升达103%且无需额外监督。此外,SRPO在LIBERO-Plus基准上实现167%的性能提升,展现出卓越的鲁棒性。
醫院與醫療系統的運作依賴於決定病患流動、成本及照護品質的營運決策。儘管基礎模型在醫學知識和對話基準測試中表現優異,但基於通用文本訓練的模型可能缺乏這些營運決策所需的專業知識。我們推出Lang1模型系列(參數規模1億至70億),其預訓練數據融合了來自紐約大學朗格尼健康中心電子健康記錄的800億臨床標記和來自互聯網的6270億標記。為在真實場景中嚴格評估Lang1,我們開發了真實醫療評估基準(ReMedE),該基準源自668,331份電子健康記錄筆記,評估五大關鍵任務:30天再入院預測、30天死亡率預測、住院時長、共病編碼及保險理賠拒賠預測。在零樣本設定下,通用模型與專業模型在五項任務中有四項表現不佳(AUROC曲線下面積36.6%-71.7%),僅死亡率預測例外。經微調後,Lang1-1B模型不僅優於參數規模達其70倍的微調通用模型,更超越參數規模達其671倍的零樣本模型,AUROC指標分別提升3.64%-6.75%和1.66%-23.66%。我們還觀察到跨任務擴展效應——對多任務聯合微調能提升其他任務表現。Lang1-1B能有效遷移至分佈外場景,包括其他臨床任務及外部醫療系統。我們的研究表明,醫院營運的預測能力需要顯性監督微調,而基於電子健康記錄的領域內預訓練可提升此微調效率。這些發現佐證了新興觀點:專業大語言模型能在特定任務中與通用模型競爭,並揭示有效的醫療系統人工智能需結合領域內預訓練、監督微調及超越代理基準的真實場景評估。
神經資訊檢索系統在高資源語言中表現卓越,但對土耳其語這類形態豐富的低資源語言的研究仍顯不足。當前土耳其語IR領域主要採用稠密雙編碼器,而保留詞元級表徵以實現細粒度匹配的延遲交互模型尚未得到系統性評估。我們推出TurkColBERT——首個全面比較土耳其語檢索中稠密編碼器與延遲交互模型的基準框架。通過兩階段適應流程:先在土耳其語NLI/STS任務上微調英語及多語言編碼器,再利用MS MARCO-TR訓練的PyLate將其轉換為ColBERT風格檢索器。我們在涵蓋科學、金融及論證領域的五個土耳其語BEIR數據集上評估10個模型。結果顯示卓越的參數效率:參數量僅1.0M的colbert-hash-nano-tr比600M的turkish-e5-large稠密編碼器縮小600倍,卻保持其平均mAP的71%以上。參數量比稠密編碼器少3-5倍的延遲交互模型顯著優於後者,ColmmBERT-base-TR在特定領域任務中mAP提升達+13.8%。針對生產環境需求,我們比較索引算法:MUVERA+重排比PLAID快3.33倍,並實現+1.7%相對mAP提升。這使得ColmmBERT-base-TR在MUVERA下達到0.54毫秒查詢延遲的低延遲檢索。我們公開所有檢查點、配置及評估腳本。局限性包括依賴中等規模數據集(≤5萬文檔)及翻譯基準,可能無法完全反映真實土耳其語檢索環境;大規模MUVERA評估仍有待開展。
我们提出NaTex——一种直接在三维空间中预测纹理颜色的原生纹理生成框架。与以往依赖烘焙由几何条件多视图扩散模型(MVD)生成的二维多视角图像的方法不同,NaTex规避了MVD流程的若干固有局限。这些局限包括:处理需修复的遮挡区域的困难性、实现边界处网格与纹理的精准对齐、以及保持跨视角内容与色彩强度的一致性和连贯性。NaTex采用一种创新范式,将纹理视作稠密彩色点云,从而解决上述问题。基于此理念,我们提出潜在色彩扩散技术,包含几何感知的彩色点云VAE和多控制扩散Transformer(DiT)——整套系统使用三维数据从头训练,用于纹理重建与生成。为实现精确对齐,我们引入原生几何控制机制,通过位置编码和几何潜变量将直接三维空间信息作为DiT的条件输入。我们协同设计了VAE-DiT架构:几何潜变量通过专设的几何分支提取,该分支与色彩VAE紧密耦合,提供与纹理保持强对应关系的细粒度表面引导。凭借这些设计,NaTex展现出卓越性能,在纹理连贯性与对齐精度上显著超越现有方法。此外,NaTex还表现出强大的泛化能力,无需训练或仅需简单调参即可适用于多种下游应用,如材质生成、纹理优化、部件分割与纹理映射等。
视觉生成领域的最新进展日益探索推理能力的整合。现有方法虽在生成前(作为预规划)或生成后(作为后优化)引入了文本推理,但缺乏生成过程中实时的多模态交互。在本初步研究中,我们提出了"边生成边思考"(TwiG)框架——首个实现文本推理与视觉生成全过程协同演进的交错式架构。该框架通过在视觉内容渐进生成时交错进行文本推理,既能指导后续局部区域的生成,又能对已合成内容进行反思。这种动态交互产生了更具上下文感知能力且语义丰富的视觉输出。为挖掘该框架潜力,我们探索了三种策略:基于我们构建的TwiG-50K数据集进行零样本提示、监督微调,以及通过定制化TwiG-GRPO策略实施强化学习,每种策略都为交错式推理的动态机制提供了独特视角。我们期望这项工作能推动文本推理交错技术赋能视觉生成的相关研究。代码将发布于:https://github.com/ZiyuGuo99/Thinking-while-Generating。
我们推出TimeViper——一种面向长视频理解挑战设计的混合视觉语言模型。处理长视频既需要高效的模型架构,又需要能有效处理长时域上下文的机制。为此,TimeViper采用混合Mamba-Transformer主干网络,将状态空间模型的高效性与注意力机制的表现力相结合。通过这种混合设计,我们揭示了视觉到文本的信息汇聚现象:随着大语言模型层深增加,信息会从视觉标记逐步流向文本标记,导致视觉标记出现严重冗余。基于这一发现,我们提出TransV模块——一种能在保持多模态理解能力的同时,将视觉标记转移并压缩至指令标记的令牌信息传输模块。该设计使TimeViper能处理超过10,000帧、时长可达小时级的视频。在多个基准测试上的广泛实验表明,TimeViper在显著扩展处理帧数的同时,仍可与最先进模型竞争。我们还深入分析了Mamba层与Transformer层的注意力机制,为混合模型的可解释性研究提供了新视角。本工作标志着向开发、解析和压缩混合Mamba-Transformer架构迈出了重要一步。
UV展开技术通过将三维表面以最小失真度展开为二维平面,通常需要将复杂曲面分解为多个图块。尽管该领域已被广泛研究,现有方法在处理AI生成网格时仍面临挑战——这类网格通常存在噪点、凹凸不平且几何条件较差。现有方法往往产生高度碎片化的图块和欠佳的边界划分,导致伪影问题并影响下游任务。我们提出PartUV,一种基于部件划分的UV展开流程,能在保持低失真度的同时生成数量显著减少且与部件对齐的图块。该方法基于近期基于学习的部件分解技术PartField构建,通过自上而下的递归框架将高层语义部件分解与新颖的几何启发式算法相结合,确保每个图块的失真度低于用户设定阈值,同时最小化图块总数。该流程整合并拓展了参数化与排布算法,包含对非流形和退化网格的专门处理,并采用大规模并行化以提升效率。在涵盖人造物体、CAD模型、AI生成网格和通用形状的四个数据集上的评估表明,PartUV在图块数量和接缝长度方面优于现有工具及近期神经方法,达到可比拟的失真度,在挑战性网格上呈现高成功率,并能实现部件级多图块排布等新应用。项目页面详见https://www.zhaoningwang.com/PartUV。
手术视频分割对于计算机辅助手术至关重要,能够实现手术器械和组织的精确定位与追踪。基于提示的交互式视频对象分割(iVOS)模型(如Segment Anything Model 2/SAM2)相比预设类别方法具有更高灵活性,但在手术场景下面临领域差异和长时追踪能力不足的挑战。为突破这些限制,我们构建了SA-SV——目前规模最大的手术iVOS基准数据集,包含跨越八种手术类型的实例级时空标注(61k帧,1.6k个掩码片段),支持长时追踪与零样本泛化能力的全面开发与评估。基于该数据集,我们提出SAM2S基础模型,通过三项创新增强SAM2的手术iVOS性能:(1)DiveMem可训练多样性记忆机制,实现鲁棒长时追踪;(2)面向器械理解的时序语义学习;(3)抗模糊学习策略以缓解多源数据集标注不一致问题。大量实验表明,在SA-SV上微调可使SAM2获得12.99平均J&F值的显著提升。SAM2S进一步将性能推至80.42平均J&F值,较原始版与微调版SAM2分别领先17.10和4.11个点,同时保持68 FPS实时推理速度及强大的零样本泛化能力。代码与数据集将发布于https://jinlab-imvr.github.io/SAM2S。
大型语言模型(LLM)的长期训练需要保持稳定的探索性,以防止模型陷入次优行为。在此过程中,熵作为控制探索性的关键指标,能有效避免模型过早收敛至次优解。然而,现有强化学习方法难以维持适宜的熵值水平,因为训练过程同时包含正负样本,且每类样本在不同训练阶段对熵的影响方式各异。为此,我们提出基于比例-积分控制的熵稳定方法(EntroPIC),该创新方法通过动态调整正负样本的损失系数,自适应地调节其对熵值的影响。该策略能在整个训练过程中稳定熵值,确保高效探索与稳定进展。我们针对同策略与异策略学习场景进行了完备的理论分析,证明EntroPIC在大规模LLM训练中能有效控制熵值。实验结果表明,本方法可成功维持目标熵值水平,为LLM实现稳定且最优的强化学习训练。
基于Transformer的架构在序列推荐系统中已被广泛采用,但其在金融服务领域的实时推荐应用仍面临独特的实践与建模挑战。这些挑战包括:a) 用户跨数字与实体渠道产生的长周期交互行为(隐式与显式)会形成时间异质性上下文;b)多类关联产品并存需协调建模以支持多样化广告投放与个性化信息流,同时平衡相互竞争的业务目标。我们提出FinTRec这一基于Transformer的框架,旨在解决金融服务领域的这些挑战及运营目标。尽管传统上树模型因可解释性及符合监管要求更受金融领域青睐,但本研究证明FinTRec为转向基于Transformer的架构提供了可行有效的路径。通过历史模拟和线上A/B测试关联分析,我们表明FinTRec持续优于生产级树模型基线。该统一架构经过产品适配微调后,可实现跨产品信号共享,降低训练成本与技术负债,同时提升所有产品的离线性能。据我们所知,这是首个在金融服务领域兼顾技术考量与业务需求的统一序列推荐建模综合性研究。
ImageNet-1K线性探針遷移準確度雖仍是視覺表徵質量的默認代理指標,但其對科學影像的預測效能已然失準。基於46個現代視覺模型檢查點的測試表明,ImageNet top-1準確度僅能解釋生態學任務中34%的方差差異,且對準確率超過75%的模型出現30%的錯誤排名。我們推出BioBench——一個能捕捉ImageNet遺漏信息的開放式生態視覺基準。該基準整合了9項公開的應用驅動任務,涵蓋4個生物分類界和6種採集模式(無人機RGB影像、網絡視頻、顯微圖像、原位與標本照片、相機陷阱幀),總計310萬張圖像。通過單一Python接口即可完成數據下載、凍結骨幹網絡的輕量級分類器擬合,並輸出類別平衡宏觀F1值(另包含FishNet與FungiCLEF的領域指標);在A6000 GPU上,ViT-L模型的評估可在6小時內完成。BioBench不僅為生態學計算機視覺提供了新的信號參照,更為構建跨領域可靠「科學人工智能」基準樹立了模板範式。代碼與預測結果見https://github.com/samuelstevens/biobench,完整結果載於https://samuelstevens.me/biobench。
尽管当前的大型视觉语言模型(LVLM)展现出强大的多模态推理能力,但由于过度依赖语言先验而非视觉证据,它们常常产生缺乏依据或虚构的回应。这一局限性凸显出现有研究缺乏对模型在推理过程中实际使用视觉信息程度的量化衡量标准。我们提出基于问题条件化效用度量的"草拟-修正"(DnR)智能体框架:该框架首先通过构建查询条件化关联图来定位问题相关线索,继而通过关联引导的概率掩码测量模型依赖度,从而量化模型对视觉证据的依赖程度。在此度量标准引导下,DnR智能体借助外部视觉专家的定向反馈修正初始回答——将每位专家输出(如检测框或掩码)渲染为图像上的视觉线索后重新查询模型,选择能最大程度提升视觉利用率的回应。该方法无需重新训练或改变模型架构即可增强视觉基础。在视觉问答和图像描述基准测试中,实验结果显示模型准确率持续提升且幻觉现象减少,证明衡量视觉利用率为构建更可解释、证据驱动的多模态智能体系统提供了理论路径。
近期图文预训练技术通过对齐视觉与文本表征,显著提升了视觉理解能力。对比语言-图像预训练(CLIP)在多模态学习中发挥了关键作用,但其单标签单粒度的对齐方式限制了在医学影像等复杂领域的应用——这类图像常对应多个高层级标签(如疾病分类)及不同标注粒度(如诊断描述、临床解释)。为此,我们提出多粒度语言学习(MGLL),这是一种对比学习框架,旨在同时提升多标签与跨粒度对齐能力。MGLL利用结构化多标签监督,整合不同粒度的文本描述,并引入带逐点约束的软标签监督以增强对齐效果。该框架采用平滑KL散度确保跨粒度一致性,同时作为即插即用模块保持计算效率。基于我们构建的大规模多粒度数据集进行预训练,并在多个数据集上验证,MGLL在下游任务中超越了现有先进方法。代码已开源:https://github.com/HUANGLIZI/MGLL。