每日精選AI研究論文及翻譯
記憶已成為並將持續作為基於基礎模型之智能體的核心能力。隨著智能體記憶研究快速擴展並吸引空前關注,該領域也日益呈現碎片化態勢。現有歸屬於智能體記憶範疇的研究工作在動機、實現方式和評估協議上往往存在顯著差異,而定義鬆散的記憶術語激增更進一步模糊了概念清晰度。傳統的長/短期記憶分類法已無法充分涵蓋當代智能體記憶系統的多樣性。本文旨在提供當前智能體記憶研究的最新全景圖。我們首先清晰界定智能體記憶的範疇,將其與大型語言模型記憶、檢索增強生成(RAG)及上下文工程等相關概念區分開來。接著我們透過形式、功能與動態性這三個統一視角審視智能體記憶:從形式視角識別出符記層級、參數化與潛在記憶這三種主流實現方式;從功能視角提出區分事實記憶、經驗記憶與工作記憶的細粒度分類框架;從動態性視角分析記憶如何隨時間形成、演進與檢索。為支持實際開發,我們彙編了完整的記憶基準測試與開源框架綜述。在整合現有成果基礎上,我們進一步闡述了對新興研究前沿的前瞻視角,包括記憶自動化、強化學習整合、多模態記憶、多智能體記憶及可信度問題。本研究不僅可作為現有工作的參考文獻,更希望為重新思考記憶作為未來智能體設計中一等公民的理論基礎提供概念支撐。
自回歸模型(ARMs)因序列推斷速度緩慢而受限。雖然掩碼擴散模型(MDMs)提供了並行化替代方案,但其存在關鍵缺陷:因無法使用鍵值(KV)緩存而導致計算開銷高昂,以及在學習依賴關係時因標記組合空間難以處理而產生不連貫生成內容。為解決這些局限性,我們提出ReFusion——一種新穎的掩碼擴散模型,通過將並行解碼從標記層級提升至更高維度的槽層級(每個槽為固定長度的連續子序列),實現了卓越的性能與效率。該模型採用迭代式「規劃-填充」解碼流程:基於擴散機制的規劃步驟首先識別一組弱依賴性槽,隨後自回歸填充步驟對這些選定槽進行並行解碼。此槽式設計同步實現了兩大突破:在統一因果框架下完全復用KV緩存,並將學習複雜度從標記組合空間降至可管理的槽級排列空間。在七個多樣化基準測試上的廣泛實驗表明,ReFusion不僅以34%的性能提升和平均超過18倍的加速比顯著超越現有MDMs,更在保持平均2.33倍加速的同時,縮小了與強力ARMs的性能差距。
我們推出QwenLong-L1.5模型,該模型通過系統化的訓練後創新實現了卓越的長上下文推理能力。其核心技術突破包括:(1)長上下文數據合成管線:開發系統化合成框架,生成需要對全局分佈證據進行多跳溯因的挑戰性推理任務。通過將文檔解構為原子事實及其底層關聯,再以程式化方式組合可驗證的推理問題,我們的方法能大規模創建高質量訓練數據,顯著超越簡單檢索任務,實現真正的長程推理能力。(2)長上下文訓練的穩定性強化學習:為克服長上下文RL的關鍵不穩定性,我們引入任務平衡抽樣與任務特定優勢估計以減輕獎勵偏差,並提出自適應熵控策略優化(AEPO)動態調控探索-利用權衡。(3)超長上下文的記憶增強架構:針對擴展上下文窗口仍無法容納無限長序列的難題,我們開發具多階段融合RL訓練的記憶管理框架,無縫整合單次推理與基於記憶的迭代處理,可處理超過400萬詞元的任務。基於Qwen3-300億-A3B思維架構的QwenLong-L1.5在長上下文推理基準測試中達到與GPT-5和Gemini-2.5-Pro相當的性能,較基線模型平均提升9.90分。在超長任務(100萬至400萬詞元)上,其記憶智能體框架相比智能體基線帶來9.48分增益。此外,所獲得的長上下文推理能力還轉化為科學推理、記憶工具使用及長對話等通用領域的性能提升。
視覺標記器(如VAE)的潛在空間品質對現代生成模型至關重要。然而,基於重建的標準訓練範式會產生偏向低階資訊的潛在空間,這導致一個根本性缺陷:更好的像素級精度並不能帶來更高質量的生成效果。這意味著將大量算力投入視覺標記器預訓練對生成性能的提升效果有限。我們將此稱為「預訓練縮放問題」,並提出關鍵轉變:要有效服務生成任務,潛在空間必須簡潔地表達高階語義。我們提出VTP這一統一的視覺標記器預訓練框架,首創性地聯合優化圖文對比、自監督和重建損失。大規模實驗揭示兩大核心發現:(1)理解是驅動生成的關鍵因素;(2)顯著改善的縮放特性——生成性能隨視覺標記器預訓練投入的算力、參數和數據量有效提升。經過大規模預訓練後,我們的標記器實現了競爭性指標(ImageNet上78.2%零樣本準確率和0.36 rFID),並比先進蒸餾方法快4.1倍收斂速度。更重要的是其卓越的縮放能力:在未修改標準DiT訓練配置的情況下,僅增加VTP預訓練的FLOPS投入即可實現下游生成任務65.8%的FID提升,而傳統自編碼器在僅消耗1/10 FLOPS時就早早陷入停滯。預訓練模型已開源於:https://github.com/MiniMax-AI/VTP。
基於預訓練影片生成系統建構影片世界模型,是實現通用時空智能的重要挑戰。一個理想的世界模型應具備三項關鍵特性:可控性、長期視覺品質與時間一致性。為此,我們採用漸進式策略——先強化可控性,再延伸至長期高品質生成。我們提出LongVie 2,這是一個端到端自回歸框架,包含三階段訓練:(1) 多模態引導技術,融合稠密與稀疏控制信號以提供隱式世界級監督,提升可控性;(2) 針對輸入幀的退化感知訓練,彌合訓練與長期推斷間的差距以維持高視覺品質;(3) 歷史上下文引導機制,通過對齊相鄰片段間的上下文信息確保時間連貫性。我們進一步推出LongVGenBench基準數據集,包含100段涵蓋真實與合成場景的高解析度一分鐘影片。大量實驗表明,LongVie 2在長程可控性、時間連貫性與視覺保真度方面達到頂尖水平,並支持持續生成長達五分鐘的影片,為統一影片世界建模邁出重要一步。
我們推出金融與會計基準測試(Finch),用於評估AI代理在真實企業級專業工作流程中的表現——這些流程交織著數據輸入、結構化、格式化、網絡搜索、跨文件檢索、計算、建模、驗證、翻譯、可視化及報告生成。Finch數據源取自安然公司(涵蓋150名員工的15,000份電子表格與50萬封郵件)及其他金融機構的真實企業工作環境,完整保留多模態資料(文本、表格、公式、圖表、代碼與圖像)在真實場景中的雜亂特性,覆蓋預算編制、交易執行與資產管理等多元領域。 我們提出結合大型語言模型輔助發現與專家標註的工作流構建流程:(1)通過LLM輔助並經專家驗證的方式,從真實郵件線程與電子表格版本歷史中推導工作流;(2)對工作流進行精細化專家標註,耗費逾700小時領域專家工時。最終構建出包含384項任務的172個複合工作流,涉及1,710份含2700萬個單元格的電子表格及PDF等輔助文件,精準捕捉真實企業工作中固有的雜亂性、長期性、知識密集性與協作特性。 我們對包括GPT 5.1、Claude Sonnet 4.5、Gemini 3 Pro、Grok 4與Qwen 3 Max在內的前沿AI系統開展人機雙重評估:GPT 5.1 Pro耗時48小時僅通過38.4%的工作流,而Claude Sonnet 4.5通過率僅25.0%。深度案例分析進一步揭示真實企業工作流為AI代理帶來的核心挑戰。
近期編程代理的進展顯示出朝向自主軟體開發的快速進步,然而現有基準測試未能嚴格評估構建完整軟體系統所需的長週期能力。多數現有評估側重於局部代碼生成、框架式補全或短期修復任務,未能解答代理能否在現實倉庫構建所需的延長週期中保持連貫推理、規劃與執行。為填補此空白,我們提出NL2Repo Bench——專為評估編程代理長週期倉庫生成能力設計的基準測試。僅需單一自然語言需求文檔與空工作區,代理必須自主設計架構、管理依賴項、實現多模塊邏輯,並產出可完整安裝的Python程式庫。我們對頂級開源與閉源模型的實驗表明,長週期倉庫生成仍屬未解難題:即使最強代理的平均測試通過率也低於40%,且極少能完整正確生成整個倉庫。細部分析揭示了根本性的長週期失效模式,包括過早終止、全局一致性喪失、脆弱的跨文件依賴關係,以及在數百個互動步驟中規劃不足等問題。NL2Repo Bench建立了可驗證的嚴謹測試平台,用於衡量持續代理能力,並凸顯長週期推理作為新一代自主編程代理的核心瓶頸。
線性時間注意力機制與狀態空間模型(SSM)有望解決採用softmax注意力的長上下文語言模型中存在的二次計算成本瓶頸。我們提出誤差無損線性注意力(EFLA),這是一種數值穩定、完全可並行化且廣義化的delta規則表述。具體而言,我們將線上學習更新建模為連續時間動力學系統,並證明其精確解不僅可實現,還能以線性時間複雜度與完全並行化方式計算。通過利用動力學矩陣的秩-1結構,我們直接推導出對應於無限階龍格-庫塔法的閉式精確解。該注意力機制理論上無誤差累積,能完美捕捉連續動力學特性,同時保持線性時間複雜度。透過大量實驗驗證,EFLA在噪聲環境下展現出強健性能,相較DeltaNet在未引入額外參數的情況下,實現了更低的語言建模困惑度與更優的下游基準性能。本研究為構建高保真、可擴展的線性時間注意力模型奠定了新的理論基礎。
近年来,虚拟形象视频生成模型取得了显著进展。然而现有方法在生成长时长高分辨率视频时效率有限,随着视频长度增加会出现时序漂移、质量下降和提示语跟随能力弱等问题。为应对这些挑战,我们提出KlingAvatar 2.0——一种在空间分辨率和时间维度进行双重升级的时空级联框架。该框架首先生成捕捉全局语义与运动的低分辨率蓝图视频关键帧,随后采用首尾帧策略将其细化为高分辨率时序连贯的子片段,同时保持长视频中流畅的时间过渡。为增强长视频中的跨模态指令融合与对齐,我们引入了由三个模态专用大语言模型专家组成的协同推理导演模块。这些专家通过多轮对话推理模态优先级并推断用户潜在意图,将输入转化为详细剧情线。负向导演模块则进一步优化负向提示词以提升指令对齐效果。基于这些组件,我们扩展框架以实现支持特定身份的多角色控制。大量实验表明,本模型能有效解决高效、多模态对齐的长时长高分辨率视频生成难题,在视觉清晰度、具有精准口型同步的逼真唇齿渲染、强身份保持以及连贯的多模态指令跟随方面均有显著提升。
全球有數億人受心理健康問題困擾,而網路已成為獲取支持、資訊和評估的主要媒介。大型語言模型(LLMs)能提供可擴展且易獲取的協助,但其在心理健康場景中的部署仍存在風險,尤其是當模型推理存在不完整、不一致或缺乏依據時。現有的心理學LLMs側重情感理解或知識檢索,卻忽略了臨床實踐所需的階梯式推理能力——包括評估、診斷、干預規劃、抽象歸納和驗證等環節。為解決這些問題,我們提出MentraSuite這一推進可靠心理健康推理的統一框架。我們構建了MentraBench綜合基準,涵蓋五大推理維度、六類任務和13個數據集,從簡潔性、連貫性、幻覺規避、任務理解力和內在一致性五個層面評估任務表現與推理質量。進一步地,我們開發了Mindora模型,通過混合SFT-RL框架進行優化,並引入不一致性檢測獎勵機制以確保忠實連貫的推理。為支持訓練,我們採用創新的推理軌跡生成策略構建高質量數據軌跡:策略性篩選困難樣本,並通過結構化、以一致性為導向的重寫流程,生成簡明可讀且均衡的推理軌跡。在評估的20個LLMs中,Mindora在MentraBench上取得最高綜合表現,並在推理可靠性方面展現卓越能力,證實其處理複雜心理健康場景的有效性。
2025年BEHAVIOR挑战赛旨在通过模拟环境中的物理智能体,系统性地追踪长周期任务解决的进展。BEHAVIOR-1K聚焦于人们最期望获得机器人协助的日常家务任务,这些任务在真实场景中引入了长周期移动操作挑战,弥合了当前研究与现实世界人本应用之间的鸿沟。本报告展示了我们在2025年BEHAVIOR挑战赛中获得亚军(与冠军成绩极为接近)且显著优于其他参赛方案的解决方案。基于π_{0.5}框架,我们通过系统研究训练技术与数据的影响来构建解决方案。经过精细的消融实验,我们证明了预训练与后训练阶段的扩展能力对竞技性能的提升作用。我们总结了实践心得与设计建议,希望为更广泛的具身智能社区在将强大基础模型适配复杂具身场景时提供可操作的洞见。
视觉-语言-动作模型通过整合视觉感知与语言引导的策略学习,为机器人学习提供了前景广阔的范式。然而现有方法大多依赖二维视觉输入在三维物理环境中执行动作,导致感知与动作落地之间存在显著鸿沟。为弥合这一差距,我们提出空间感知型VLA预训练范式,在预训练阶段实现视觉空间与物理空间的显式对齐,使模型在机器人策略学习前即可获得三维空间理解能力。基于预训练的视觉语言模型,我们利用大规模人类演示视频提取三维视觉与三维动作标注,构建出能对齐二维视觉观测与三维空间推理的新监督信号。通过双编码器架构VIPA-VLA实例化该范式,该架构引入三维视觉编码器,将语义视觉表征增强为具有三维感知能力的特征。在下游机器人任务适配中,VIPA-VLA显著提升了二维视觉与三维动作的 grounding 效果,最终产生更鲁棒且泛化能力更强的机器人策略。
基於大語言模型的智能體通常以貪婪的逐步方式運行,僅根據當前觀測選擇行動而忽略長期後果或替代路徑。這種前瞻性缺失在部分可觀測的網絡環境中尤為突出——此類環境僅限於瀏覽器可見內容(如DOM和UI元素)——單次操作失誤往往需要複雜且脆弱的導航才能撤銷。若缺乏顯式回溯機制,智能體難以糾正錯誤或系統性探索替代路徑。樹搜索方法為此類結構化探索提供了理論框架,但現有方法缺少安全回溯機制,易導致非預期副作用。它們還假設所有操作皆可逆,忽略了不可逆操作的存在——這些侷限性降低了其實際網絡任務中的有效性。為應對這些挑戰,我們提出WebOperator這一支持可靠回溯與策略性探索的樹搜索框架。該方法融合了最佳優先搜索策略(通過獎勵估計與安全性考量對行動排序)與魯棒回溯機制(在重放路徑前驗證其可行性以預防副作用)。為進一步引導探索,WebOperator從多樣化推理上下文生成行動候選集以確保探索的多元性與穩健性,並通過預執行過濾無效操作及合併語義等價操作來提煉高質量行動集。在WebArena和WebVoyager上的實驗結果驗證了WebOperator的有效性:在WebArena中,WebOperator憑藉gpt-4o實現了54.6%的頂尖成功率,彰顯了策略性前瞻與安全執行的關鍵優勢。
我们提出"交互智能体"这一新型数字人范式,其具备性格对齐表达、自适应交互与自我进化能力。为实现该愿景,我们研发了Mio(多模态交互全能虚拟人)——由五大核心模块构成的端到端框架:思维中枢、语音引擎、面部动画器、肢体动画器与渲染器。这一统一架构将认知推理与实时多模态具身表现相融合,实现流畅一致的交互体验。此外,我们建立了全新基准测试体系以系统评估交互智能体的综合能力。大量实验表明,本框架在所有评估维度上均超越现有最优方法。这些突破性进展共同推动数字人技术从表层模仿迈向真正的智能交互。
尽管当前多数视觉语言模型(VLM)在标准测试中能较好地回答目标明确的直接性问题,但在处理需要多轮视觉空间探索与推理的复杂开放任务时往往表现不佳。这类视觉思维路径不仅能像AI侦探般提供逐层探索与验证,还能对最终答案产生更优的解读。然而,由于中间步骤的探索空间巨大,此类路径的评估一直面临挑战。为弥补这一差距,我们开发了"多步探索视觉推理评估套件(V-REX)",该套件包含需要原生多步探索的挑战性视觉推理任务基准及评估协议。V-REX覆盖跨领域的丰富应用场景,将多步探索式推理转化为问题链(CoQ)框架,并解构VLM的两大核心能力:(1)规划能力:通过选择探索性问题链分解开放任务;(2)执行能力:依次回答预设问题链以收集推导最终答案的信息。通过为每个步骤设计有限选项的问题与答案,V-REX实现了对中间步骤的可靠量化与细粒度分析。通过对前沿专有及开源VLM的评估,我们发现了稳定的规模扩展趋势、规划与执行能力间的显著差异,以及多步探索推理存在的巨大改进空间。
尽管多模态大语言模型(MLLMs)已在多个领域展现出强大能力,但其在自动驾驶中生成细粒度3D感知与预测输出的应用仍待深入探索。本文提出DrivePI——一种新颖的空间感知4D MLLM,作为统一化的视觉-语言-动作(VLA)框架,同时兼容视觉-动作(VA)模型。我们的方法通过端到端优化并行实现空间理解、3D感知(即3D占据)、预测(即占据流)与规划(即动作输出)。为同时获取精确几何信息与丰富视觉外观,本方案将点云、多视角图像和语言指令整合至统一MLLM架构中。我们进一步开发数据引擎以生成用于4D空间理解的文本-占据与文本-流问答对。值得注意的是,仅采用0.5B参数的Qwen2.5模型作为MLLM骨干网络,DrivePI作为单一统一模型即可媲美或超越现有VLA模型与专用VA模型。具体而言:相较于VLA模型,DrivePI在nuScenes-QA上的平均准确率较OpenDriveVLA-7B提升2.5%,在nuScenes数据集上的碰撞率较ORION降低70%(从0.37%降至0.11%);对比专用VA模型,DrivePI在OpenOcc的3D占据任务中RayIoU指标超越FB-OCC达10.3,在OpenOcc的占据流任务中将mAVE从0.591降至0.509,并在nuScenes规划任务中较VAD实现32%的L2误差降低(从0.72米降至0.49米)。代码将发布于https://github.com/happinesslz/DrivePI。
视觉语言模型(VLA)在视觉问答任务中表现出色,但始终局限于静态视觉感知——仅能基于静态图像进行推理。相比之下,具身智能体需要动态视觉能力,通过主动移动来获取信息量更丰富的视角。我们提出视觉驱动的主动视角选择任务,该任务仅利用当前图像中的视觉信息(无需场景记忆或外部知识)来选择最具信息量的下一视角。为支持此任务,我们构建了包含自动生成的配对查询-目标视角及问答提示的合成数据集,并提出通过监督微调与基于强化学习的策略优化来微调预训练VLA的框架。该方法在基于视角选择的问答任务上表现优异,并能稳健地泛化至未见的合成场景和真实场景。此外,将学习得到的VG-AVS框架集成至现有基于场景探索的具身问答系统中,可有效提升下游问答任务的准确率。
視覺-語言-動作模型在跨機器人操作任務的泛化能力方面展現出卓越性能。然而,在非結構化環境中部署這類模型仍面臨挑戰,關鍵在於需同時確保任務執行合規性與安全性,特別是在物理交互過程中防止潛在碰撞。本研究提出名為AEGIS的視覺-語言-安全動作架構,該架構通過控制屏障函數構建了即插即用的安全約束層。AEGIS可直接與現有VLA模型集成,在保持原有指令跟隨性能的同時,以理論保證提升安全性。為評估架構效能,我們構建了涵蓋不同空間複雜度與障礙物干預程度的安全關鍵基準測試SafeLIBERO。大量實驗證明本方法優於現有頂尖基準模型,其中AEGIS在障礙物規避率方面實現59.16%的提升,同時將任務執行成功率顯著提高17.25%。為促進可重現性與後續研究,我們已將代碼、模型及基準數據集公開於https://vlsa-aegis.github.io/。
过度将图像生成模型与广义审美偏好对齐会与用户意图产生冲突,特别是在需要"反审美"输出用于艺术或批判目的时。这种对齐机制优先考虑以开发者为中心的价值观,损害了用户自主权和审美多元性。我们通过构建广谱美学数据集并评估前沿生成模型与奖励模型,验证了这种偏差。研究发现:审美对齐的生成模型往往默认输出传统意义上的美观图像,无法响应低画质或负面意象的生成指令;更关键的是,奖励模型会对反审美图像实施惩罚,即便这些图像完全符合用户的显式指令。通过图像编辑实验和真实抽象艺术品的对比评估,我们确认了这种系统性偏差的存在。
图像扩散模型的缓慢推理过程严重影响了交互式用户体验。为解决此问题,我们提出Diffusion Preview创新范式,通过快速低步数采样生成初步预览结果供用户评估,待预览效果满意后再进行全步数精细化处理。现有加速方法(包括免训练求解器和训练后蒸馏技术)难以同时实现高质量预览和预览-最终输出的一致性。我们基于通用线性多步法提出ConsistencySolver——一种通过强化学习优化的轻量级可训练高阶求解器,能显著提升预览质量与一致性。实验结果表明,该求解器在低步数场景下大幅提升生成质量与一致性,特别适用于高效预览-优化工作流。值得注意的是,其FID分数与多步DPM-Solver相当但步数减少47%,同时优于蒸馏基线方法。用户研究表明,本方法在保持生成质量的同时将用户总交互时间缩短近50%。代码已开源:https://github.com/G-U-N/consolver。
表征对齐(REPA)通过将预训练的强视觉编码器中的表征蒸馏至扩散模型的中间特征,来指导生成式模型的训练。我们探究了一个根本性问题:目标表征的哪个方面对生成质量至关重要——是其全局语义信息(例如通过ImageNet-1K准确率衡量),还是其空间结构(即图像块标记之间的成对余弦相似度)?普遍观点认为,目标表征的全局语义性能越强,生成效果就越好。为验证这一点,我们首先对27种不同视觉编码器及不同模型规模进行了大规模实证分析。结果出人意料:驱动目标表征生成性能的关键因素是空间结构,而非全局性能。为进一步研究,我们引入两种直接改进方法,专门强化空间信息的传递:将REPA中的标准MLP投影层替换为简单卷积层,并为外部表征引入空间归一化层。令人惊讶的是,我们这种仅需不到4行代码实现的简易方法(称为iREPA),在多种视觉编码器、模型规模和训练变体(如REPA、REPA-E、Meanflow、JiT等)中,均能持续提升REPA的收敛速度。本研究促使我们重新审视表征对齐的基本工作机制,以及如何利用该机制改进生成式模型的训练。代码及项目页面详见https://end2end-diffusion.github.io/irepa
針對完整歌曲的音樂到視頻(M2V)生成正面臨重大挑戰。現有方法僅能生成短暫且不連貫的片段,無法實現視覺內容與音樂結構、節拍或歌詞的對齊,且缺乏時間連貫性。本文提出AutoMV——一個可直接從歌曲生成完整音樂視頻(MV)的多智能體系統。該系統首先運用音樂處理工具提取音樂屬性(如結構、人聲軌道及時間對齊歌詞),並將這些特徵構建為後續智能體的上下文輸入。隨後,編劇智能體與導演智能體利用這些信息設計短劇本、在共享外部庫中定義角色檔案,並制定鏡頭指令。這些智能體會調用圖像生成器生成關鍵幀,並根據「故事」或「歌手」場景調用不同視頻生成器。驗證智能體對輸出結果進行評估,通過多智能體協作生成連貫的長篇MV。為評估M2V生成效果,我們進一步提出包含四大高維度類別(音樂內容、技術、後期製作、藝術)及十二項細粒度標準的基準測試。應用該基準對商業產品、AutoMV及人工製作的MV進行專家評測顯示:AutoMV在四大類別中均顯著超越現有基準線,縮小了與專業MV的差距。最後,我們探索使用大型多模態模型作為自動MV評測工具,儘管前景可期,但其表現仍遜於人類專家,凸顯了未來研究的改進空間。
扩散模型可能無意中重現訓練樣本,隨著這類系統被大規模部署,引發了隱私和版權方面的擔憂。現有的推理階段緩解方法通常通過操控無分類器引導或擾動提示嵌入來實現,但這些方法往往難以在降低記憶效應的同時保持與條件提示的契合度。我們提出CAPTAIN這一無需重新訓練的框架,通過在去噪過程中直接修改潛在特徵來緩解記憶問題。該框架首先應用基於頻率的噪聲初始化,以降低去噪過程早期複現記憶模式的傾向;隨後識別特徵注入的最佳去噪時間步並定位記憶區域;最後將來自非記憶參考圖像的語義契合特徵注入定位的潛在區域,在抑制記憶效應的同時保持提示契合度與視覺質量。實驗表明,相較於基於無分類器引導的基準方法,CAPTAIN在保持與目標提示強關聯性的同時,實現了記憶效應的顯著降低。
具备物理感知的驾驶世界模型对于行驶规划、分布外数据合成和闭环评估至关重要。然而,现有方法通常依赖单一扩散模型直接将驾驶动作映射为视频,这导致学习困难并产生物理不一致的输出。为克服这些挑战,我们提出GenieDrive——一个专为物理感知驾驶视频生成设计的新型框架。该方法首先生成包含物理信息的4D占据场,作为后续视频生成的物理基础。4D占据场蕴含丰富的物理信息,包括高分辨率三维结构与动态特性。为有效压缩此类高分辨率占据场,我们提出一种变分自编码器,将占据场编码为潜在三平面表示,使潜在空间尺寸降至原有方法的58%。我们进一步引入互控注意力机制来精确建模控制信号对占据场演化的影响,并以端到端方式联合训练变分自编码器与预测模块以最大化预测精度。这些设计共同实现了推理速度41帧/秒下预测mIoU指标提升7.2%,且仅需347万参数。此外,视频生成模型中引入的归一化多视角注意力机制,能够基于4D占据场指导生成多视角驾驶视频,使FVD指标显著降低20.7%。实验表明,GenieDrive能够实现高度可控、多视角一致且具备物理感知的驾驶视频生成。
尽管有效的后训练结合了监督微调(SFT)与强化学习(RL),但如何最优利用专家轨迹的机制仍悬而未决。我们提出可塑性-上限框架为此领域建立理论基础,将性能分解为基础SFT性能与后续RL可塑性。通过大规模基准测试,我们确立"先SFT后RL"的串行流程为最优标准,其克服了同步方法的稳定性缺陷。此外我们推导出精确的规模扩展准则:(1)在SFT稳定期或轻度过拟合子阶段转向RL,可通过确保基础SFT性能且不损害RL可塑性来实现最终上限最大化;(2)驳斥"少即是多"在SFT后RL扩展中的适用性,证明数据规模决定后训练的主要潜力,而轨迹难度充当性能倍增器;(3)发现SFT最小验证损失可作为选择专家轨迹的稳健指标,以最大化最终性能上限。我们的研究为提取专家轨迹的最大价值提供了可操作的指导原则。
扩散蒸馏技术已显著加速了类别条件图像生成,但其在开放式文本到图像生成领域的适用性仍不明确。本研究首次系统性地将前沿蒸馏技术适配并应用于强大的T2I教师模型FLUX.1-lite。通过将现有方法纳入统一框架,我们揭示了从离散类别标签转向自由语言提示时出现的关键障碍。除深入的方法论分析外,我们还提供了关于输入缩放、网络架构和超参数的实用指南,并同步开源实现代码与预训练学生模型。本研究为在实际T2I应用中部署高速、高保真且资源高效的扩散生成器奠定了坚实基础。代码已发布于github.com/alibaba-damo-academy/T2I-Distill。
大型语言模型(LLMs)在生成最终答案前会先产生推理标记以提升复杂任务的表现。虽然这些标记序列看似人类思维过程,但实证研究表明它们并不能真实反映模型的实际推理机制。为弥合这种表象与功能之间的鸿沟,我们提出"标记状态"(SoT)概念框架。SoT将推理标记重新定义为外部化的计算状态——而非语言叙述——这是贯穿模型无状态生成周期的唯一持续性信息载体。该框架揭示了为何这些标记在驱动正确推理的同时,却无法作为可信的文本解释被解读,并凸显了以往被忽视的相关研究问题。我们主张,要真正理解LLMs的运作机制,研究必须超越将推理标记作为文本来解读的层面,转而聚焦于将其作为状态进行解码。
现代三维点云处理神经网络架构同时包含卷积层和注意力模块,但最佳组合方式仍不明确。我们系统分析了三维点云网络中不同计算模块的作用,发现一种直观规律:卷积适用于在早期高分辨率层提取低层级几何特征,此时注意力机制因计算代价高昂而未显优势;注意力则能更高效地在深层低分辨率层捕获高层级语义和上下文信息。基于此设计原则,我们提出一种改进的新型三维点云主干网络,在浅层采用卷积运算并在深层切换至注意力机制。为规避丢弃冗余卷积层时可能丢失的空间布局信息,我们引入了一种无需训练的新型三维位置编码方法PointROPE。最终实现的LitePT模型与最先进的Point Transformer V3相比,参数量减少3.6倍、运行速度提升2倍、内存消耗降低2倍,但在多项任务和数据集上仍能实现相当甚至更优的性能。代码与模型已开源:https://github.com/prs-eth/LitePT。
視覺標記器在擴散模型中扮演關鍵角色。潛空間的維度不僅控制著重建保真度,更決定了潛在特徵的語義表達能力。然而維度與生成質量之間存在固有權衡,這使得現有方法只能受限於低維潛空間。儘管近期研究利用視覺基礎模型來增強視覺標記器的語義豐富度並加速收斂,但高維標記器的性能仍遜於低維版本。本文提出RecTok,通過兩項關鍵創新——流語義蒸餾與重建對齊蒸餾,突破高維視覺標記器的侷限性。我們的核心洞見在於:有別於過往研究聚焦於潛空間,應使流匹配中的前向流具備豐富語義,以此作為擴散變壓器的訓練空間。具體而言,本方法將視覺基礎模型中的語義信息蒸餾至流匹配的前向流軌跡,並通過引入掩碼特徵重建損失進一步強化語義表達。RecTok在圖像重建、生成質量與判別性能上均實現卓越表現,在有无分類器引導的gFID-50K評測中均取得最優結果,同時保持語義豐富的潛空間結構。更值得注意的是,隨著潛在維度提升,我們觀察到性能的持續改善。代碼與模型已開源於:https://shi-qingyu.github.io/rectok.github.io。
我们提出Flowception——一种新颖的非自回归可变长度视频生成框架。该框架通过学习交织离散帧插入与连续帧去噪的概率路径,实现了高效视频生成。相较于自回归方法,Flowception通过采样过程中的帧插入机制有效压缩长期上下文信息,从而缓解误差累积/漂移问题。相比全序列流方法,我们的训练计算量(FLOPs)降低至三分之一,同时更适配局部注意力变体,并能实现视频时长与内容的联合学习。定量实验表明,本方法在FVD和VBench指标上均优于自回归和全序列基线模型,定性结果进一步验证了其优越性。通过同步学习序列中的帧插入与去噪操作,Flowception可无缝集成图像生成视频、视频插帧等多样化任务。
泛化能力仍是互動式3D場景生成的核心挑戰。現有基於學習的方法將空間理解侷限於有限場景數據集,限制了對新佈局的泛化能力。我們轉而重編程預訓練的3D實例生成器,使其成為場景級學習器,以模型為核心的空間監督取代數據集邊界的監督。這種重編程釋放了生成器的可遷移空間知識,使其能夠泛化至未見過的佈局與新穎物件組合。值得注意的是,即使訓練場景由隨機組合的物件構成,空間推理能力依然湧現。這證明生成器的可遷移場景先驗能提供豐富的學習信號,使其僅從幾何線索即可推斷鄰近性、支撐關係與對稱性。我們捨棄廣泛使用的規範空間,改以視角中心的場景空間表述來實踐此洞見,建構出完全前饋式的可泛化場景生成器,能直接從實例模型學習空間關係。量化與質化結果表明,3D實例生成器實為隱性的空間學習器與推理器,為互動式3D場景理解與生成的基礎模型指明方向。項目頁面:https://luling06.github.io/I-Scene-project/
视频扩散模型虽已彻底改变了生成式视频合成技术,但仍存在生成结果不精确、速度缓慢且生成过程不透明等问题,导致用户需要长时间处于等待状态。本研究提出DiffusionBrowser——一个与模型无关的轻量级解码器框架,允许用户在去噪过程的任意时间点(时间步或Transformer模块)交互式生成预览。我们的模型能以超实时4倍以上速度(4秒视频仅需不到1秒)生成包含RGB和场景本征的多模态预览表征,这些预览与最终视频具有一致的外观和运动特征。通过训练后的解码器,我们证明了在中间噪声步骤中通过随机性重注入和模态导向实现交互式生成引导的可行性,从而解锁了全新的控制能力。此外,我们利用学习得到的解码器对模型进行系统性探查,揭示了在原本如同黑箱的去噪过程中,场景、物体及其他细节是如何逐步组合构建的。
文本反转(TI)是一种高效的文本到图像个性化方法,但在处理复杂提示时常常失效。我们将这些失败归因于嵌入范数膨胀:学习到的标记会漂移至分布外的幅值范围,从而降低预归一化Transformer中的提示条件效果。实证研究表明,CLIP标记空间中的语义信息主要由方向编码,而膨胀的范数会损害上下文化能力;理论分析显示,过大的幅值会削弱位置信息并阻碍预归一化块中的残差更新。我们提出方向性文本反转(DTI),该方法将嵌入幅值固定为分布内尺度,并通过黎曼随机梯度下降仅在单位超球面上优化方向。我们将方向学习建模为带有冯·米塞斯-费希尔先验的最大后验估计,从而产生恒定方向先验梯度,这种梯度易于高效融入算法。在各类个性化任务中,DTI在保持主体相似度的同时,较TI及其变体能显著提升文本保真度。关键的是,DTI的超球面参数化实现了学习概念间的平滑、语义连贯插值(球面线性插值),这是标准TI所缺失的能力。我们的研究结果表明,纯方向优化是实现提示忠实个性化的稳健且可扩展的路径。
运动理解是物理推理的基础,能使模型推断动态特性并预测未来状态。然而,当前最先进的模型在最新运动基准测试中仍表现不佳,主要原因是缺乏大规模细粒度运动数据集。现有运动数据集通常依赖昂贵的人工标注,严重限制了可扩展性。为解决这一难题,我们推出FoundationMotion——一个全自动数据构建流程,能够创建大规模运动数据集。该方法首先通过视频中的物体检测与追踪提取运动轨迹,随后结合轨迹数据与视频帧,利用大语言模型生成关于运动和空间推理的细粒度描述及多样化问答对。基于该流程构建的数据集,我们对NVILA-Video-15B和Qwen2.5-7B等开源模型进行微调,在显著提升运动理解能力的同时未影响其他任务表现。值得注意的是,在多样化运动理解数据集和基准测试中,我们的模型性能超越了Gemini-2.5 Flash等强闭源基线模型以及Qwen2.5-VL-72B等大型开源模型。FoundationMotion由此提供了一种可扩展的解决方案,能够构建细粒度运动数据集,有效支持多样化模型的微调,从而增强运动理解与空间推理能力。
图表理解对于在多模态大语言模型(MLLMs)中部署现实应用场景(如科学论文与技术报告分析)至关重要。与自然图像不同,图表同时具备结构化视觉布局(空间属性)和底层数据表征(文本属性)——精确的细粒度图表推理需要同时掌握这两种特性。基于此发现,我们提出START框架(面向图表理解的空间与文本联合学习)。具体而言,我们引入(1)图表元素定位和(2)图表转代码生成两项技术,以增强MLLM对图表视觉布局与数据细节的联合理解能力。为促进空间与文本学习,我们通过新型数据生成流程构建了START数据集:首先利用MLLM将真实图表图像转换为可执行图表代码,在保持真实图表视觉分布的同时还原其底层数据表征;随后通过大语言模型(LLM)对代码进行演化,精确定位捕捉图表视觉结构的元素空间位置,解决现有方法难以应对的挑战。为评估模型对图表空间结构的理解能力,我们提出图表空间理解基准(CS-Bench),填补了全面图表理解评估的关键空白。通过空间与文本联合学习,START在不同模型规模与基准测试中均较基础模型实现稳定提升,并以显著优势超越现有最优方法。代码、数据及模型将公开提供。
现实世界中的场景通常由若干静态与动态物体构成。尽管捕捉这些物体在自然状态下的四维结构、组合关系及时空配置极具研究价值,但其实现难度同样巨大。因此现有研究多聚焦于单物体分析,并依赖特定类别的参数化动态物体形状模型。这种方法不仅受限于已建模的物体类别,还可能导致场景配置不一致。我们提出COM4D(组合式四维重建)方法,仅需静态多物体或动态单物体的监督信号,即可持续联合预测四维/三维物体的结构及时空配置。通过精心设计对二维视频输入实施时空注意力机制训练,我们将学习过程解耦为物体组合关系学习与单物体时序动态学习,从而完全规避对四维组合训练数据的依赖。在推理阶段,我们提出的注意力混合机制能融合这些独立学习的注意力权重,且无需任何四维组合示例。通过交替进行空间推理与时间推理,COM4D可直接从单目视频中重建出包含多个交互物体的完整且持续的四维场景。此外,尽管采用纯数据驱动方式,COM4D在四维物体重建与组合式三维重建等现有分离任务中仍取得了最先进的结果。
精確的漁業資料對於實現有效且可持續的海洋資源管理至關重要。隨著電子監控系統的近期推廣,目前收集的影像資料量已超出人工審核的負荷能力。本文針對此挑戰,利用新型AutoFish數據集開發了優化的深度學習流水線,用於實現魚類自動重識別。該數據集模擬配備傳送帶的電子監控系統,包含六種外觀相似的魚種。我們證實,通過結合困難三元組挖掘技術與自訂影像轉換流程(包含數據集專用標準化處理),能顯著提升重識別關鍵指標(R1與mAP@k)。採用這些策略後,基於視覺Transformer的Swin-T架構持續優於卷積神經網路ResNet-50,達到41.65%的mAP@k峰值與90.43%的Rank-1準確率。深入分析表明,主要挑戰在於區分同物種中視覺特徵相似的個體(物種內誤差),其中視角不一致產生的負面影響遠大於部分遮擋。源代碼與文檔已公開於:https://github.com/msamdk/Fish_Re_Identification.git
我们推出FIN-bench-v2,这是一个用于评估芬兰语大型语言模型的统一基准测试套件。该套件将广泛使用的基准测试芬兰语版本与原始FIN-bench的升级扩展版整合为格式统一的集合,涵盖阅读理解、常识推理、情感分析、世界知识和对齐性等多选题与生成式任务。所有数据集均转换为HuggingFace Datasets格式,包含完形填空和多项选择题两种提示模板(每项任务设五种变体),并对机器翻译资源(如GoldenSwag和XED)进行了人工标注或审核。为筛选稳健任务,我们预训练了一组21.5亿参数的仅解码器模型,通过其学习曲线计算单调性、信噪比、非随机性能及模型排序一致性,仅保留满足所有标准的任务。我们还评估了若干大型指令微调模型,以刻画不同任务和提示模板下的性能表现。所有数据集、提示模板和评估配置均通过我们分叉的"语言模型评估工具库"(https://github.com/LumiOpen/lm-evaluation-harness)公开。补充资源发布于独立代码库(https://github.com/TurkuNLP/FIN-bench-v2)。
世界模型在机器人学习任务中已展现出卓越性能。此类任务大多天然需要多模态推理能力:例如,仅凭视觉信息来判断水瓶注水过程会存在模糊性或不完整性,这就要求系统能够基于音频的时序演变进行推理,并考量其内在物理特性与音高模式。本文提出一种生成式潜在流匹配模型,用于预测未来的音频观测结果,当该模型被整合到机器人策略中时,可使系统具备推理长期行为后果的能力。通过两项需感知真实环境音频或音乐信号的操作任务实验,我们证明了相较于未采用前瞻预测的方法,本系统具有更优异的性能。我们进一步强调,成功实现这些任务的机器人动作学习不仅依赖于多模态输入,更关键在于对未来音频状态的精准预测,因为这些状态蕴含着内在的节律模式。
大型多模态模型的最新进展表明,显式推理机制对提升模型可靠性、可解释性及跨模态对齐具有关键作用。尽管这类以推理为核心的方法已在语言与视觉任务中被证明有效,但其向三维领域的拓展仍显不足。CoRe3D提出了一种统一的三维理解与生成推理框架,该框架能协同处理语义与空间抽象信息,使从语言推断出的高层意图直接指导低层三维内容的生成。该设计的核心在于一种空间锚定的推理表征,它将三维潜在空间分解为局部区域,使模型能够以组合式、流程化的方式对几何结构进行推理。通过将语义链式推理与结构化空间推理紧密耦合,CoRe3D生成的三维输出既保持了强烈的局部一致性,又与语言描述实现精准对齐。
老年性黃斑部病變(AMD)與脈絡膜新生血管(CNV)相關疾病是全球視力喪失的主因,而光學相干斷層掃描(OCT)已成為早期檢測與管理的關鍵技術。然而,ConvNeXtV2-Large等尖端深度學習模型因計算需求龐大,難以在臨床環境中部署。因此,亟需開發能維持高診斷效能且可即時運作的高效模型。本研究提出新型知識蒸餾框架KD-OCT,透過先進數據增強、隨機權重平均與焦點損失強化ConvNeXtV2-Large教師模型,將其壓縮為輕量型EfficientNet-B2學生模型,用於分類正常、玻璃膜疴及CNV病例。KD-OCT採用即時蒸餾技術,結合軟性教師知識轉移與硬性真實標註的混合損失函數。在諾爾眼科醫院(NEH)數據集上以患者級別交叉驗證評估顯示,KD-OCT在效率-準確度平衡性上超越多尺度與特徵融合OCT分類器,以大幅縮減的模型體積與推論時間達成接近教師模型的效能。儘管經過壓縮,學生模型仍優於多數現有框架,為AMD篩檢的邊緣部署提供可行性。程式碼公開於:https://github.com/erfan-nourbakhsh/KD-OCT。