每日精選AI研究論文及翻譯
奖励反馈学习(ReFL)已被证明能有效对齐图像生成与人类偏好,但其在视频生成领域的扩展面临重大挑战。现有视频奖励模型依赖为像素空间输入设计的视觉语言模型,这将ReFL优化限制在计算成本高昂的VAE解码后接近完成的去噪阶段。这种像素空间方法不仅带来巨大的内存开销和训练时间延长,其后期优化缺乏早期监督机制,仅能改善视觉质量而无法优化基础运动动态与结构连贯性。本研究证明,预训练视频生成模型天然适用于噪声潜在空间的奖励建模,因为它们专为处理任意时间步的噪声潜在表示而设计,并通过序列建模能力固有地保留时序信息。基于此,我们提出过程奖励反馈学习(PRFL)框架,该框架完全在潜在空间中进行偏好优化,无需VAE解码即可实现全程去噪链的高效梯度反向传播。大量实验表明,PRFL在显著提升人类偏好对齐度的同时,相较RGB-ReFL实现了内存消耗与训练时间的大幅降低。
儘管現代擴散模型在生成高品質與多樣化圖像方面表現卓越,但在實現高保真度的組合式與多模態控制時仍面臨挑戰,尤其當使用者需同時指定文字提示、主體參照、空間佈局、姿勢約束和版面標註時。我們提出「畫布到圖像」統一框架,將這些異質控制項整合至單一畫布介面,使使用者能生成精準反映意圖的圖像。其核心思路是將多種控制信號編碼為單一複合畫布圖像,使模型能直接解讀並進行整合式視覺空間推理。我們進一步構建一套多任務資料集,提出「多任務畫布訓練」策略,透過統一學習範式優化擴散模型,使其能共同理解並融合異質控制項至文字生成圖像的流程中。此聯合訓練使「畫布到圖像」能跨多種控制模態進行推理,而非依賴任務特定啟發式方法,並在推論階段對多控制場景展現良好泛化能力。大量實驗表明,「畫布到圖像」在具挑戰性的基準測試(包括多人組合、姿勢控制合成、版面約束生成及多控制生成)中,於身份保持與控制依從性方面顯著優於現有頂尖方法。
體現認知理論主張,智能源於感知運動互動而非被動觀察。這引發了一個耐人尋味的問題:主要在非具身模式下訓練的現代視覺語言模型(VLM),是否會表現出體現認知的跡象?我們提出ENACT基準測試,將體現認知評估框架轉化為以視覺問答(VQA)形式呈現的自我中心互動世界建模。該框架採用部分可觀測馬爾可夫決策過程(POMDP),其動作表現為場景圖變化,包含兩項互補的序列重排任務:正向世界建模(根據動作重排亂序觀察結果)與逆向世界建模(根據觀察結果重排亂序動作)。雖然概念簡潔,但解決這些任務隱含需要體現認知的核心能力——從部分可觀測的自我中心輸入中進行功能可供性識別、動作效應推理、具身意識及長時程互動記憶,同時避免可能干擾評估的低層級圖像合成。我們建立可擴展流水線,從機器人模擬環境(BEHAVIOR)生成問答對,並在涵蓋長時程家庭規模活動的8,972組問答對上評估模型。實驗顯示前沿VLM與人類表現存在差距,且該差距隨互動時長增加而擴大。模型在逆向任務中的表現始終優於正向任務,並呈現出人類中心偏誤——包括偏好右手動作,以及當相機內參或視角偏離人類視覺時性能下降。項目網站:https://enact-embodied-cognition.github.io/。
語言理解不僅在於提取語言輸入的表層意義,更在於構建對所描述情境的豐富心智模型。本文提出,由於大腦核心語言系統的處理能力存在根本局限,深度理解語言需要將信息從語言系統輸出至其他腦區——這些區域負責計算感知與運動表徵、建構心智模型,並存儲我們的世界知識與自傳體記憶。我們回顧了支持該假說的現有證據,指出認知神經科學的最新進展既提供了檢驗該假說的理論基礎,也提供了研究方法,從而開闢了一條新路徑來揭示「理解語言」在認知與神經層面上的真正內涵。
指令引導式影像編輯為用戶提供了一種直觀的自然語言影像修改方式。然而,基於擴散模型的編輯系統往往難以精確解析複雜的用戶指令——特別是涉及組合關係、上下文語境或指代表達的內容——容易導致編輯結果出現語義偏差或未能體現預期修改效果。為解決此問題,我們提出MIRA(多模態迭代推理智能體),這款輕量級即插即用型多模態推理智能體通過「感知-推理-行動」的迭代循環執行編輯任務,有效模擬人機多輪交互過程。有別於單次指令或靜態規劃,MIRA會逐步預測原子級編輯指令,並利用視覺反饋進行決策。我們構建的15萬規模多模態工具使用數據集MIRA-Editing,結合兩階段SFT+GRPO訓練流程,使MIRA能對複雜編輯指令執行推理與編輯。當與Flux.1-Kontext、Step1X-Edit、Qwen-Image-Edit等開源影像編輯模型配合使用時,MIRA在語義一致性和感知質量方面均實現顯著提升,其性能可媲美甚至超越GPT-Image、Nano-Banana等專有系統。
大型多模態模型因其出色的指令遵循能力及與人類偏好的高度一致性,正日益被用作多模態評估系統中的評判者。然而,這些模型在遵循多樣化、細粒度評估準則方面的能力仍有待深入探索。我們開發了Multi-Crit基準測試,用於評估多模態評判者在遵循多元準則並產生可靠準則級判斷的能力。該基準涵蓋開放式生成與可驗證推理兩類任務,通過嚴格的數據篩選流程構建,收錄了帶有多準則人工標註的挑戰性回應對,並引入三項創新指標系統性評估:多元準則遵循度、準則切換靈活性,以及識別準則級偏好衝突的能力。對25個大型多模態模型的綜合分析表明:1)專有模型仍難以保持對多元準則的一致性遵循——尤其在開放式評估中;2)開源模型在靈活遵循多樣準則方面存在更大差距;3)基於整體判斷信號的批評微調雖能增強視覺基礎能力,但無法泛化至多元準則級判斷。針對推理微調、測試時擴展以及開源與專有模型間邊界一致性的補充分析,進一步揭示了當前多模態評判者的局限性。作為開創性研究,Multi-Crit為構建可靠且可調控的多模態人工智能評估奠定了基礎。
多模態大語言模型在處理孤立查詢時展現出強大的推理能力,但它們的運作方式始終是從零開始——每個問題都獨立求解,且往往重複相同的錯誤。現有的記憶增強型智能體主要儲存過往的執行軌跡以供重複使用。然而,基於軌跡的記憶存在簡略性偏差,會逐漸流失關鍵的領域知識。更重要的是,即使在真正的多模態解題情境中,這類記憶也僅記錄了單模態的行為軌跡,未能保存視覺注意力與邏輯推理如何協同促成解決方案的過程。這種機制與人類認知存在根本性錯位:語義記憶兼具多模態與整合性特質,通過協調且表徵方式互異的雙重路徑來保存視覺與抽象知識。為此,我們提出ViLoMem——一種雙流記憶框架,能建構基於圖式的精簡記憶。該框架分別編碼視覺分心模式與邏輯推理錯誤,使多模態大語言模型能從成功與失敗經驗中學習。遵循「生長-精煉」原則,系統逐步累積並更新多模態語義知識,既保留穩定、可泛化的策略,又避免災難性遺忘。在六大多模態基準測試中,ViLoMem持續提升pass@1準確率,並顯著減少重複的視覺與邏輯錯誤。消融實驗證實了具備顯性分心-幻覺分離機制的雙流記憶的必要性,彰顯了錯誤感知型多模態記憶在終身學習與跨領域智能體學習中的價值。我們的項目頁面將發布於:https://weihao-bo.github.io/ViLoMeo-page。