每日精選AI研究論文及翻譯
我們提出異質智能體協作強化學習(HACRL),這一新型學習範式旨在解決孤立同策略優化的效率瓶頸。HACRL實現了「協作優化、獨立執行」的機制:異質智能體在訓練階段共享經過驗證的軌跡數據以實現相互提升,而在推理階段仍保持獨立運行。與基於大語言模型的多智能體強化學習(MARL)不同,HACRL無需協調部署;與同策略/異策略蒸餾技術相比,它支持異質智能體間的雙向相互學習,而非單向的師生知識遷移。基於此範式,我們進一步提出HACPO算法,通過理論保證的軌跡共享機制最大化樣本利用率與跨智能體知識傳遞。為緩解能力差異與策略分佈偏移,HACPO引入四項定制化組件,確保優勢估計的無偏性與優化過程的正確性。在多元異質模型組合與推理基準測試中,HACPO持續提升所有參與智能體性能,平均超越GSPO算法3.3%,同時僅需一半的軌跡採樣成本。
我們推出Helios——首個140億參數的視頻生成模型,在單張NVIDIA H100 GPU上可實現19.5 FPS的實時生成,支持分鐘級長視頻生成且質量媲美強基準模型。我們在三個關鍵維度實現突破:(1) 無需自強制、誤差累積庫或關鍵幀採樣等常用防漂移策略,即可實現長視頻生成的穩健性;(2) 無需KV緩存、稀疏/線性注意力或量化等標準加速技術,即可達成實時生成;(3) 無需並行或分片框架即可完成訓練,在80GB GPU內存中容納最多四個140億參數模型,同時實現圖像擴散模型級別的批次大小。具體而言,Helios是採用統一輸入表徵的140億參數自回歸擴散模型,原生支持文本到視頻、圖像到視頻及視頻到視頻任務。為緩解長視頻生成中的漂移問題,我們系統性歸納典型失效模式,提出在訓練中顯式模擬漂移現象的簡潔有效策略,並從源頭消除重複性運動。在效率方面,通過大幅壓縮歷史上下文與噪聲上下文,並減少採樣步數,使計算成本與13億參數視頻生成模型相當甚至更低。此外,我們引入基礎設施層級優化技術,在降低內存消耗的同時加速推理與訓練。大量實驗表明,Helios在短視頻與長視頻生成任務上均持續超越現有方法。我們計劃開原始碼、基礎模型與蒸餾模型,以支持社區進一步發展。
思考人類如何處理複雜閱讀任務:標記關鍵點、推斷其關聯性,並建構信息結構以引導理解與回應。同理,大型語言模型能否藉助文本結構來提升文本處理效能?為探索此問題,本研究首先提出「思維結構」(Structure of Thought, SoT)這一提示技術,明確引導模型建構中間文本結構,在八項任務與三類模型家族中實現了持續的性能提升。基於此洞見,我們推出首個專注於評估與提升模型「文本到結構」能力的基準測試T2S-Bench,涵蓋6大科學領域與32種結構類型共1.8萬個樣本,經嚴格構建以確保準確性、公平性與品質。對45個主流模型的評估揭示巨大改進空間:多跳推理任務平均準確率僅52.1%,即便最先進模型在端到端提取任務中的節點準確率也僅達58.1%。此外,在Qwen2.5-7B-Instruct模型上,僅使用SoT即可於八項文本處理任務實現平均+5.7%的提升,而結合T2S-Bench微調更將增益擴大至+8.6%。這些成果凸顯了顯式文本結構化的價值,以及SoT與T2S-Bench的互補性貢獻。數據集與評估代碼已發佈於:https://t2s-bench.github.io/T2S-Bench-Page/。
主動式即時互動體驗對於擬人化AI伴侶至關重要,但仍面臨三大關鍵挑戰:(1) 在連續串流輸入下實現低延遲推理,(2) 自主決定回應時機,(3) 控制生成內容的質與量以滿足即時性要求。本研究透過兩種適合自動評估的遊戲情境(解說員與引導者)來具體實現AI伴侜,提出包含單人解說、雙人解說及用戶引導三大典型場景的大規模即時遊戲基準數據集Live Gaming Benchmark,並建構Proact-VL通用框架,將多模態語言模型轉化為具備人類化環境感知與互動能力的主動式即時交互代理。大量實驗表明,Proact-VL在保持強大視頻理解能力的同時,實現了卓越的回應延遲控制與內容品質,證實其在即時互動應用中的實用價值。
隨著大型語言模型(LLMs)在長時程任務中的應用日益普及,維持有效的長期記憶已成為關鍵挑戰。現有方法往往面臨成本與準確性之間的取捨:簡易的儲存方法常無法檢索到相關資訊,而複雜的索引方法(如記憶圖)則需大量計算且可能導致資訊遺失。此外,依賴工作用LLM處理所有記憶不僅計算成本高昂,效率也較低。為解決這些限制,我們提出MemSifter框架,將記憶檢索過程卸載至輕量化代理模型。該框架無需增加主工作LLM的負擔,而是透過小型模型先對任務進行推理,再檢索必要資訊。此方法在索引階段無需繁重計算,且推理時僅增加極少開銷。為優化代理模型,我們引入專為記憶設計的強化學習訓練範式,基於工作LLM完成任務的實際表現設計任務導向的獎勵機制。該獎勵透過與工作LLM的多輪互動量化被檢索記憶的實際貢獻度,並根據貢獻度階梯式衰減區分檢索排名。我們還採用課程學習與模型融合等訓練技術提升效能。在八項LLM記憶基準測試(含深度研究任務)中,MemSifter在檢索準確率與最終任務完成度上均達到或超越現有頂尖方法。MemSifter為長期LLM記憶提供了高效可擴展的解決方案,我們已開源模型權重、程式碼與訓練資料以推動後續研究。
在無需3D/4D監督的情況下合成物理合理的關節化人物-物體交互(HOI)仍是一項基礎性挑戰。儘管現有的零樣本方法利用視頻擴散模型來合成人物-物體交互,但它們大多侷限於剛性物體操作,且缺乏明確的4D幾何推理。為彌合這一差距,我們將關節化HOI合成定義為基於單目視頻先驗的4D重建問題:僅通過擴散模型生成的視頻,無需任何3D監督即可重建完整的4D關節化場景。這種基於重建的方法將生成的2D視頻視為逆向渲染問題的監督信號,恢復出幾何一致、物理合理且自然遵循接觸關係、關節運動與時間連貫性的4D場景。我們提出ArtHOI——首個通過視頻先驗進行4D重建的零樣本關節化人物-物體交互合成框架。其核心設計包括:1)基於光流的部件分割:利用光流作為幾何線索,在單目視頻中分離動態與靜態區域;2)解耦重建流程:由於在單目模糊性下聯合優化人體運動與物體關節會不穩定,我們先重建物體關節狀態,再根據重建結果合成人體運動。ArtHOI連接了基於視頻的生成與幾何感知重建,產生的交互既語義對齊又物理可信。在多樣化關節場景(如打開冰箱、櫥櫃、微波爐)中,ArtHOI在接觸精度、穿透減少和關節保真度上顯著優於現有方法,通過重建引導的合成將零樣本交互合成拓展至剛性操作之外的領域。
我們推出Phi-4-reasoning-vision-15B——一款精簡的開放權重多模態推理模型,並闡述其開發過程中的設計動機、架構選擇、實驗驗證與關鍵發現。本研究旨在為學界提供建構更小巧高效的多模態推理模型的實用洞見,同時將研究成果以開放權重形式共享。該模型不僅擅長常規視覺語言任務,更在科學數學推理與用戶界面理解方面表現卓越。我們的核心貢獻在於證明:透過精細的架構設計與嚴謹的數據策劃,小型開放權重多模態模型能以顯著更少的訓練/推理計算量與標記數實現競爭性性能。最顯著的提升源自系統化的數據篩選、錯誤修正與合成擴增——這再次印證數據質量仍是模型性能的核心槓桿。系統消融實驗表明,高解析度動態編碼器能帶來持續改進,因為精準感知是高質量推理的前提。最後,通過混合推理與非推理數據並輔以顯式模式標記的混合策略,單一模型既能對簡單任務給出快速直接回應,也能對複雜問題進行思維鏈推理。
针对复杂推理任务的测试时扩展研究表明,通过独立采样并聚合多个解决方案等方法利用推理阶段的计算资源,能显著提升任务表现。然而验证环节成为关键瓶颈:只有当正确解能在候选方案中被可靠识别时,采样策略才真正有效。现有方法通常通过标量评分对候选方案进行独立评估,但我们证明模型在成对自验证方面表现更为强大。基于这一发现,我们提出V_1框架——通过高效成对排序统一生成与验证过程。该框架包含两个组件:V_1-Infer采用基于锦标赛排序的不确定性引导算法,动态分配自验证计算资源至相对正确性最不确定的候选对;V_1-PairRL则作为联合训练框架,使单一模型兼具生成器与成对自验证器功能,确保验证器能适配生成器的动态分布。在代码生成(LiveCodeBench、CodeContests、SWE-Bench)和数学推理(AIME、HMMT)基准测试中,V_1-Infer将Pass@1指标较点式验证提升最高达10%,在显著提升效率的同时优于近期测试时扩展方法。此外,V_1-PairRL在测试时扩展方面较标准强化学习与点式联合训练提升7-9%,在代码生成场景下将基础Pass@1指标较标准强化学习最高提升8.7%。
從透視輸入生成高品質360°全景影片是虛擬實境(VR)的關鍵應用之一,其中高解析度影片對沉浸式體驗尤為重要。現有方法受限於基礎擴散模型的計算能力,僅支援原生生成≤1K解析度的影片,需依賴次優的後處理超解析度技術來提升解析度。我們提出CubeComposer——一種新穎的時空自回歸擴散模型,能夠原生生成4K解析度的360°影片。透過將影片分解為六個面的立方體映射表示,CubeComposer按精心規劃的時空順序自回歸合成內容,在降低記憶體需求的同時實現高解析度輸出。針對多維度自回歸的挑戰,我們提出:(1) 時空自回歸策略,協調立方體面與時間窗口的生成以確保連貫性;(2) 立方體面上下文管理機制,配備稀疏上下文注意力設計以提升效率;(3) 連續性感知技術,包括立方體感知位置編碼、填充與融合來消除邊界接縫。在基準數據集上的大量實驗表明,CubeComposer在原生解析度與視覺品質上均超越現有最先進方法,能有效支援實際VR應用場景。項目頁面:https://lg-li.github.io/project/cubecomposer
大型語言模型(LLM)代理在處理長週期任務時,其效能從根本上受有限上下文視窗的限制。隨著任務軌跡增長,在上下文中共時保留工具輸出與中間推理過程會迅速變得不可行:工作上下文長度急劇擴展,最終超出上下文預算上限,即使早期證據仍存在於上下文中,其效用也會隨距離增加而衰減。現有解決方案通常通過截斷或運行摘要來縮短上下文,但這些方法本質上是有損的,因為它們對過往證據進行了壓縮或丟棄。我們提出Memex——一種索引化經驗記憶機制,該機制通過非丟棄證據的方式實現上下文壓縮。Memex維護由精煉結構化摘要與穩定索引組成的緊湊工作上下文,同時將完整保真的底層交互存儲於外部經驗數據庫中並與索引對應。代理可根據當前子目標需求,通過解引用索引精確恢復所需的過往證據。我們通過強化學習框架MemexRL優化讀寫行為,利用針對上下文預算下索引記憶使用設計的獎勵塑形,使代理自主學習摘要生成、歸檔時機、索引策略及檢索觸發條件。相較於僅依賴摘要的方法,該機制實現了顯著降低信息損耗的長週期記憶形態。我們進一步提供理論分析,證明Memex循環在歷史增長時,既能通過有界解引用保持決策質量,又能將有效上下文計算量控制在有界範圍內。實證研究表明,在挑戰性長週期任務中,經MemexRL訓練的Memex代理在顯著縮小工作上下文的同時,持續提升任務成功率。
在开放世界场景下对细粒度视觉概念进行分类(即无需预定义标签集)要求模型兼具准确性与特异性。近期出现的推理型大型多模态模型展现出强大的视觉理解能力,但在执行细粒度图像分类时往往产生过于笼统的预测。我们的初步分析表明,模型本身确实具备内在的细粒度领域知识,然而如何在保持正确预测的同时提升预测特异性,仍是一个重要但研究不足的挑战。本研究探索如何引导推理型多模态模型生成既正确又具特异性的预测。我们提出了一种新颖的特异性感知强化学习框架SpeciaRL,用于在开放世界设定下对推理型多模态模型进行细粒度图像分类的微调。该框架通过基于在线推演中最优预测的动态验证器奖励信号,在提升特异性的同时尊重模型能力以避免错误预测。跨领域实验表明,SpeciaRL在大量细粒度基准测试中实现了正确性与特异性的最佳平衡,超越了现有方法,推动了开放世界细粒度图像分类的发展。代码与模型已开源:https://github.com/s-angheben/SpeciaRL。
大型视觉语言模型(LVLMs)采用视觉令牌剪枝策略以缓解大量视觉令牌序列带来的巨大计算开销。尽管现有研究主要关注基于注意力或基于多样性的剪枝方法,但针对这些方法特性与局限性的深入分析仍属空白。本研究通过使用有效秩值(erank)作为特征多样性度量指标和注意力分数熵值,对视觉令牌处理机制展开全面实证分析,系统剖析了各类方法的优缺点。我们的分析揭示了两项关键发现:(1)基于erank的定量分析表明,许多面向多样性的剪枝方法所保留的特征多样性远低于预期;此外,通过CHAIR数据集的分析发现,相较于基于注意力的剪枝,这些方法保留的多样性反而与更高的幻觉频率密切相关。(2)我们进一步观察到,基于注意力的方法在处理视觉证据集中的简单图像时更为有效,而基于多样性的方法则更擅长处理具有分散特征的复杂图像。基于这些实证发现,我们证明了将图像自适应调整融入现有混合剪枝策略能持续提升其性能。同时,我们通过一个简易的自适应剪枝机制对实证发现进行了最小化实例化,该机制在标准基准测试及幻觉专项评估中均实现了稳定强劲的性能。项目页面详见:https://cvsp-lab.github.io/AgilePruner。
生成具有连贯视觉叙事的长篇故事视频仍是视频合成领域的重大挑战。本文提出了一套创新框架、数据集及模型,针对三个关键局限性问题展开攻关:跨镜头背景一致性、多主体镜头间无缝过渡,以及小时级叙事内容的可扩展性。我们引入的背景一致性生成流程,能在保持角色身份与空间关系的同时,确保场景间的视觉连贯性。进一步提出的过渡感知视频合成模块,可针对多主体进出画面的复杂场景生成流畅的镜头转场,突破了现有技术仅限单主体的局限。为此,我们贡献了包含1万条多主体过渡序列的合成数据集,涵盖动态场景构图中未被充分探索的案例。在VBench评测中,InfinityStory在背景一致性(88.94)、主体一致性(82.11)两项指标均获最高分,并以2.80的综合排名位列第一,展现出更优的稳定性、更平滑的过渡效果及更出色的时序连贯性。
多模态大语言模型的快速发展已展现出令人瞩目的能力,但现有模型几乎均采用离线处理范式,这阻碍了实时交互的实现。为弥补这一空白,我们推出实时视频交互基准测试平台RIVER Bench,专门用于评估在线视频理解能力。该基准创新性地构建了由回溯记忆、实时感知与主动预测任务组成的评估框架,通过模拟交互式对话而非一次性处理完整视频的方式贴近实际应用场景。我们采用多源异构且时长各异的视频数据进行精细化标注,并明确定义了实时交互的数据格式。对不同类别模型的评估表明:离线模型在单次问答任务中表现优异,但难以胜任实时处理需求。针对现有模型在在线视频交互中存在的长期记忆与未来感知能力不足等缺陷,我们提出通用改进方法,使模型能够更灵活地实现实时人机交互。我们相信这项工作将显著推动实时交互式视频理解模型的发展,并为这一新兴领域的后续研究提供启发。数据集与代码已公开于https://github.com/OpenGVLab/RIVER。
基於大型語言模型(LLM)的智能體在自動化軟體工程任務(如靜態缺陷修復)方面已展現出強大能力,SWE-bench等基準測試便是有力證明。然而在現實世界中,成熟軟體的開發通常依賴於複雜的需求變更與長期的功能迭代——這一動態過程是靜態單次修復範式所無法捕捉的。為彌合此鴻溝,我們提出首個基於持續集成循環的倉庫級基準測試SWE-CI,旨在將程式碼生成的評估範式從靜態短期功能正確性轉向動態長期可維護性。該基準包含100項任務,每項任務平均對應真實程式碼倉庫中長達233天、包含71次連續提交的演進歷史。SWE-CI要求智能體通過數十輪分析與編碼迭代系統性地解決這些任務,從而為評估智能體在長期演進過程中維持程式碼品質的能力提供重要視角。
具身对话代理(ECA)旨在通过语音、手势和面部表情模拟人类面对面互动。当前基于大语言模型(LLM)的对话代理缺乏具身性及自然交互所必需的表现性手势。现有ECA解决方案常产生僵硬、低多样性的动作,难以实现类人交互。另一方面,语音协同手势的生成方法虽能产生自然肢体动作,但依赖未来语音上下文且需较长运行时间。为弥补这一差距,我们提出MIBURI——首个在线因果框架,可生成与实时语音对话同步的表现性全身手势及面部表情。我们采用身体部位感知手势编解码器,将分层运动细节编码为多级离散标记,随后通过基于LLM语音文本嵌入的二维因果框架进行自回归生成,实时建模时间动态与部位级运动层次。此外,我们引入辅助目标函数以增强手势表现力与多样性,同时避免收敛至静态姿势。对比评估表明,相较于近期基线方法,我们的因果实时框架能生成更自然且语境契合的手势。敬请访问https://vcai.mpi-inf.mpg.de/projects/MIBURI/ 观看演示视频。
当前大型语言模型的安全评估与红队测试仍主要集中于文本领域,现有框架缺乏系统性检验对齐能力是否泛化至音频、图像及视频输入的基础设施。我们提出MUSE(多模态统一安全评估平台),这一开源且以运行为核心的平台将自动跨模态载荷生成、三种多轮攻击算法(Crescendo、PAIR、Violent Durian)、供应商无关的模型路由,以及采用五级安全分类法的LLM评判器整合至基于浏览器的统一系统中。双指标框架区分了硬性攻击成功率(仅含完全服从)与软性ASR(包含部分服从),可捕捉二元指标所忽略的部分信息泄露。为探究对齐能力是否跨越模态边界泛化,我们引入轮间模态切换技术,通过每轮次模态轮换增强多轮攻击效果。在来自四个供应商的六款多模态LLM上的实验表明:针对单轮拒绝率接近完美的模型,多轮攻击策略可实现90-100%的ASR;ITMS虽未在已饱和的基线上统一提升最终ASR,但通过瓦解早期轮次的防御机制加速收敛;消融实验揭示模态影响的方向具有模型家族特异性而非普适性,这凸显了需开展供应商感知的跨模态安全测试。
在具身智能任务中,智能体需要以在线且近乎实时的方式构建和理解三维场景,因此实现场景探索过程中的即时三维场景理解至关重要。本研究提出EmbodiedSplat——一种面向开放词汇场景理解的在线前馈式3D高斯溅射方法,能够通过流式图像输入同时实现在线三维重建与三维语义理解。与现有通常局限于离线或逐场景优化设置的开放词汇3DGS方法不同,我们的目标具有双重性:1)以在线方式从超过300张流式图像中重建具有语义嵌入的完整场景3DGS;2)通过前馈式设计实现对新场景的高度泛化能力,并结合实时二维模型支持近实时的三维语义重建。为实现这些目标,我们提出了带有CLIP全局码本的在线稀疏系数场,在将二维CLIP嵌入绑定至每个三维高斯的同时,最小化内存消耗并保持CLIP的完整语义泛化能力。此外,我们通过三维U-Net聚合3DGS的部分点云来生成三维几何感知的CLIP特征,从而为面向二维的语言嵌入补偿三维几何先验。在ScanNet、ScanNet++和Replica等多个室内数据集上的大量实验表明,我们的方法兼具卓越的有效性与高效性。欢迎访问项目页面https://0nandon.github.io/EmbodiedSplat/。
基於可驗證硬獎勵的強化學習,能否教會緊湊型語言模型進行物理推理?抑或其主要習得的是面向正確答案的模式匹配?我們通過在梁結構靜力學這一經典工程問題上訓練15億參數的推理模型來研究此問題,採用參數高效的RLVR方法,僅使用符號求解器提供的二元正確性獎勵,且無需教師生成的推理軌跡。最佳BeamPERL檢查點相比基礎模型實現了66.7%的Pass@1提升。然而所學能力呈現各向異性:模型能實現組合泛化(增加載荷),卻在需要相同平衡方程的拓撲變化(移動支座)時失效。中間檢查點產生了最強推理能力,而持續優化會在保持獎勵的同時降低魯棒性。這些發現揭示了結果層面對齊的關鍵局限:採用精確物理獎勵的強化學習會誘導程序化解決方案模板的生成,而非對控制方程的內化。即使獎勵信號具有解析精確性,其本身並不能保證可遷移的物理推理能力。我們的結果表明,可驗證獎勵可能需要與結構化推理支架相結合,才能突破模板匹配的局限,實現魯棒的科學推理。
Detection Transformer(DETR)及其变体在目标检测(自动驾驶系统的关键任务)上展现出强大性能。然而这些模型存在一个关键局限:其置信度分数仅反映语义不确定性,未能捕捉同等重要的空间不确定性,导致对检测可靠性的评估不够全面。另一方面,深度集成方法虽能通过提供高质量的空间不确定性估计来解决此问题,但其巨大的内存消耗使其难以应用于实际场景。而更经济的替代方案——蒙特卡洛(MC)丢弃法,由于需要在推理阶段进行多次前向传播来估计不确定性,存在高延迟问题。 为克服这些局限,我们提出了GroupEnsemble——一种面向类DETR模型的高效不确定性估计方法。该方法通过在推理阶段向变换器解码器输入额外多样化的目标查询组,同时预测多个独立检测集。每个查询组经由共享解码器独立变换后,对同一输入预测完整的检测结果。通过应用注意力掩码机制阻止组间查询交互,确保各组独立完成检测,从而实现可靠的集成不确定性估计。借助解码器固有的并行处理能力,GroupEnsemble可在单次前向传播中高效完成不确定性估计,无需序列重复。我们在自动驾驶场景(Cityscapes数据集)和日常场景(COCO数据集)中验证了本方法,结果表明结合MC丢弃法与GroupEnsemble的混合策略在多项指标上以更低成本超越了深度集成方法。代码已开源:https://github.com/yutongy98/GroupEnsemble。
尽管近年来开放词汇目标检测领域的研究兴趣日益增长,但现有方法大多严重依赖人工标注的细粒度训练数据集以及资源密集型的逐层跨模态特征提取。本文提出HDINO——一种简洁高效的开放词汇目标检测器,无需依赖上述组件。具体而言,我们基于Transformer架构的DINO模型设计了两阶段训练策略:第一阶段将噪声样本作为额外正样本实例,构建视觉与文本模态间的一对多语义对齐机制(O2M),从而促进语义对齐;同时基于初始检测难度设计难度加权分类损失函数(DWCL),通过挖掘困难样本进一步提升模型性能。第二阶段对已对齐的表征施加轻量级特征融合模块,以增强对语言语义的敏感性。在Swin Transformer-T配置下,HDINO-T仅使用来自两个公开检测数据集的220万张训练图像(无需人工数据筛选及 grounding 数据),即在COCO数据集上实现49.2% mAP,较基于540万和650万张图像训练的Grounding DINO-T和T-Rex2分别高出0.8和2.8个mAP。经COCO微调后,HDINO-T与HDINO-L进一步达到56.4%和59.2% mAP,彰显了方法的有效性与扩展性。代码与模型已开源:https://github.com/HaoZ416/HDINO。