AI研究論文每日精選

每日精選AI研究論文及翻譯

DropletVideo：探索时空一致性视频生成的數據集與方法
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Mar 8

ByRunze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan

138

時空一致性是視頻生成中的一個關鍵研究課題。一段合格的生成視頻片段必須確保情節的合理性和連貫性，同時在不同視角下保持物體和場景的視覺一致性。先前的研究，特別是在開源項目中，主要集中於時間或空間一致性，或它們的基本組合，例如在提示後附加相機運動的描述，而不限制此運動的結果。然而，相機運動可能會引入新物體到場景中或消除現有物體，從而覆蓋並影響先前的敘述。特別是在具有眾多相機運動的視頻中，多個情節之間的相互作用變得越來越複雜。本文引入並探討了整體時空一致性，考慮了情節進展與相機技術之間的協同作用，以及先前內容對後續生成的長期影響。我們的研究涵蓋了從數據集構建到模型開發的全過程。首先，我們構建了一個名為DropletVideo-10M的數據集，該數據集包含1000萬個具有動態相機運動和物體動作的視頻。每個視頻都附有平均206個字的註釋，詳細描述了各種相機運動和情節發展。隨後，我們開發並訓練了DropletVideo模型，該模型在視頻生成過程中出色地保持了時空一致性。DropletVideo數據集和模型可在https://dropletx.github.io上訪問。

Being-0：一款配备视觉语言模型与模块化技能的人形机器人代理
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Mar 16

ByHaoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu

構建能夠在現實世界具身任務中達到人類水平表現的自主機器人代理，是人形機器人研究的最終目標。近年來，基礎模型（FMs）在高層次認知能力以及人形機器人低層次技能開發方面取得了顯著進展。然而，直接將這些組件結合往往會導致在長時程任務中因錯誤累積以及不同模塊的延遲差異而出現魯棒性和效率低下的問題。我們提出了Being-0，這是一個分層代理框架，它將基礎模型與模塊化技能庫相結合。基礎模型負責高層次認知任務，如指令理解、任務規劃和推理，而技能庫則為低層次控制提供穩定的運動和靈巧的操作能力。為了彌合這些層次之間的差距，我們提出了一個由輕量級視覺語言模型（VLM）驅動的新型連接器模塊。該連接器通過將基於語言的計劃轉化為可執行的技能命令，並動態協調運動和操作來提高任務成功率，從而增強了基礎模型的具身能力。除了基礎模型外，所有組件均可部署在低成本的在線計算設備上，使得Being-0在配備靈巧手和主動視覺的全尺寸人形機器人上實現了高效、實時的表現。在大型室內環境中的廣泛實驗證明了Being-0在解決需要挑戰性導航和操作子任務的複雜長時程任務中的有效性。更多詳情和視頻，請訪問https://beingbeyond.github.io/being-0。

免費實現萬物個性化：基於擴散變換器的技術
Personalize Anything for Free with Diffusion Transformer

Mar 16

ByHaoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng

個性化圖像生成旨在根據用戶指定的概念生成圖像，同時實現靈活的編輯。近期無需訓練的方法雖然比基於訓練的方法展現出更高的計算效率，但在身份保持、適用性以及與擴散變換器（DiTs）的兼容性方面仍存在挑戰。本文揭示了DiT尚未開發的潛力，即僅需將去噪標記替換為參考對象的標記，即可實現零樣本對象重建。這一簡單而有效的特徵注入技術解鎖了從個性化到圖像編輯的多樣化場景。基於這一觀察，我們提出了「Personalize Anything」，這是一個無需訓練的框架，通過以下方式在DiT中實現個性化圖像生成：1）時間步自適應標記替換，通過早期階段注入強化物體一致性，並通過後期階段正則化增強靈活性；2）補丁擾動策略以提升結構多樣性。我們的方法無縫支持佈局引導生成、多對象個性化以及遮罩控制編輯。評估結果顯示了在身份保持和多功能性方面的最先進性能。我們的工作為DiTs提供了新的見解，同時為高效個性化提供了一個實用範式。

SPIN-Bench：大型語言模型在戰略規劃與社交推理上的表現如何？
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

Mar 16

ByJianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath

在社交互動中進行推理和策略行為是智能的顯著特徵。這種形式的推理遠比在靜態環境中（如數學問題解決）的孤立規劃或推理任務更為複雜。本文介紹了戰略規劃、互動與協商（SPIN-Bench），這是一個新的多領域評估框架，旨在衡量戰略規劃和社交推理的智能水平。雖然許多現有基準聚焦於狹義的規劃或單一代理的推理，SPIN-Bench將經典的PDDL任務、競爭性棋盤遊戲、合作性卡牌遊戲以及多代理協商場景整合到一個統一的框架中。該框架不僅包含基準測試，還提供了一個模擬和評估多種社交情境的競技場，以測試AI代理的推理和策略行為。我們通過系統性地變化動作空間、狀態複雜度及互動代理的數量來構建SPIN-Bench基準，模擬了多種社交情境，其中成功不僅依賴於有條不紊的逐步決策，還需要對其他（對抗性或合作性）參與者的概念性推斷。我們的實驗表明，儘管當代大型語言模型在基本事實檢索和短期規劃上表現尚可，但在需要對大規模狀態空間進行深度多跳推理以及在不確定性下進行社交熟練協調的任務中，它們遇到了顯著的性能瓶頸。我們期待SPIN-Bench能成為未來研究堅固的多代理規劃、社交推理以及人機協作的催化劑。

DreamRenderer：駕馭大規模文本到圖像模型中的多實例屬性控制
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Mar 17

ByDewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang

基於圖像條件的生成方法，如深度圖和邊緣檢測圖條件化方法，已展現出精確圖像合成的卓越能力。然而，現有模型在精確控制多個實例（或區域）內容方面仍存在困難。即便是FLUX和3DIS等最先進的模型，也面臨著實例間屬性洩漏等挑戰，這限制了用戶的控制能力。為解決這些問題，我們引入了DreamRenderer，這是一種基於FLUX模型的無需訓練的方法。DreamRenderer允許用戶通過邊界框或遮罩控制每個實例的內容，同時確保整體視覺和諧。我們提出了兩項關鍵創新：1）用於硬文本屬性綁定的橋接圖像標記，該方法使用複製的圖像標記作為橋接標記，確保僅在文本數據上預訓練的T5文本嵌入在聯合注意力過程中為每個實例綁定正確的視覺屬性；2）僅應用於關鍵層的硬圖像屬性綁定。通過對FLUX的分析，我們識別出負責實例屬性渲染的關鍵層，並僅在這些層中應用硬圖像屬性綁定，而在其他層中使用軟綁定。這種方法在確保精確控制的同時，保持了圖像質量。在COCO-POS和COCO-MIG基準上的評估表明，DreamRenderer將圖像成功率比FLUX提高了17.7%，並將GLIGEN和3DIS等佈局到圖像模型的性能提升了高達26.8%。項目頁面：https://limuloo.github.io/DreamRenderer/。

多模態思維鏈推理：全面綜述
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Mar 16

ByYaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei

通過將人類逐步思維的鏈式推理（CoT）優勢擴展到多模態情境中，多模態鏈式推理（MCoT）近期獲得了顯著的研究關注，尤其是在與多模態大語言模型（MLLMs）的整合方面。現有的MCoT研究設計了多種方法和創新的推理範式，以應對圖像、視頻、語音、音頻、3D和結構化數據等不同模態的獨特挑戰，並在機器人、醫療、自動駕駛和多模態生成等應用中取得了廣泛成功。然而，MCoT仍面臨著獨特的挑戰和機遇，需要進一步關注以確保該領域的持續繁榮，而遺憾的是，目前尚缺乏對這一領域的最新綜述。為彌補這一空白，我們首次系統性地梳理了MCoT推理，闡明了相關的基礎概念和定義。我們提供了一個全面的分類體系，並從多種應用場景的不同視角深入分析了當前的方法。此外，我們還對現有挑戰和未來研究方向提出了見解，旨在推動多模態通用人工智能（AGI）的創新發展。

R1-VL：通過逐步群組相對策略優化學習多模態大型語言模型的推理能力
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Mar 17

ByJingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao

近期研究通常通過在高質量的思維鏈推理數據上進行監督微調來增強多模態大語言模型（MLLMs）的推理能力，這往往導致模型僅僅模仿成功的推理路徑，而未能理解錯誤的推理路徑為何。在本研究中，我們旨在提升MLLMs的推理能力，使其超越被動模仿正面推理路徑的範疇。為此，我們設計了逐步群組相對策略優化（StepGRPO），這是一種新的在線強化學習框架，使MLLMs能夠通過簡單、有效且密集的逐步獎勵機制自我提升推理能力。具體而言，StepGRPO引入了兩種基於規則的新穎推理獎勵：逐步推理準確性獎勵（StepRAR）和逐步推理有效性獎勵（StepRVR）。StepRAR通過軟關鍵步驟匹配技術獎勵包含必要中間推理步驟的推理路徑，而StepRVR則通過推理完整性和邏輯評估策略獎勵遵循結構良好且邏輯一致的推理過程的路徑。基於提出的StepGRPO，我們推出了R1-VL系列，這是一組在逐步推理方面表現卓越的MLLMs。在8個基準測試上的廣泛實驗證明了我們方法的優越性。

編輯遷移：通過視覺上下文關係學習圖像編輯
Edit Transfer: Learning Image Editing via Vision In-Context Relations

Mar 17

ByLan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou

我們提出了一種新的設定，稱為「編輯轉移」，在此設定下，模型僅需從單一源-目標範例中學習轉換，並將其應用於新的查詢圖像。雖然基於文本的方法在通過文本提示進行語義操作方面表現出色，但它們往往難以精確處理幾何細節（例如，姿態和視角變化）。另一方面，基於參考的編輯通常專注於風格或外觀，卻無法處理非剛性變換。通過明確地從源-目標對中學習編輯轉換，「編輯轉移」緩解了僅依賴文本和以外觀為中心的參考方法的侷限性。受大型語言模型中的上下文學習啟發，我們提出了一種視覺關係上下文學習範式，該範式基於DiT的文本到圖像模型。我們將編輯範例和查詢圖像排列成一個統一的四格複合圖，然後應用輕量級的LoRA微調來從少量範例中捕捉複雜的空間變換。儘管僅使用了42個訓練樣本，「編輯轉移」在多樣的非剛性場景中顯著超越了最先進的TIE和RIE方法，展示了少樣本視覺關係學習的有效性。

BlobCtrl：一個統一且靈活的框架，用於元素級圖像生成與編輯
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Mar 17

ByYaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou

元素級視覺操作在數位內容創作中至關重要，但當前基於擴散模型的方法缺乏傳統工具的精度與靈活性。在本研究中，我們提出了BlobCtrl框架，該框架利用基於概率的blob表示法，統一了元素級生成與編輯。通過將blob作為視覺基元，我們的方法有效地解耦並表示了空間位置、語義內容及身份信息，從而實現精確的元素級操作。我們的主要貢獻包括：1）採用雙分支擴散架構，結合層次特徵融合，實現前景與背景的無縫整合；2）設計了自監督訓練範式，配以定制的數據增強與評分函數；3）引入可控的dropout策略，以平衡保真度與多樣性。為支持進一步研究，我們推出了BlobData用於大規模訓練，以及BlobBench用於系統性評估。實驗表明，BlobCtrl在多種元素級操作任務中表現卓越，同時保持計算效率，為精確且靈活的視覺內容創作提供了實用解決方案。項目頁面：https://liyaowei-stu.github.io/project/BlobCtrl/

MicroVQA：基於顯微鏡的科學研究之多模態推理基準
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Mar 17

ByJames Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy

科學研究需要對多模態數據進行複雜的推理，這一挑戰在生物學領域尤為突出。儘管近年來多模態大語言模型（MLLMs）在AI輔助研究方面取得了進展，但現有的多模態推理基準僅針對大學水平的難度，而研究級別的基準則強調低層次的感知，未能滿足科學發現所需的複雜多模態推理。為彌補這一差距，我們引入了MicroVQA，這是一個視覺問答（VQA）基準，旨在評估研究工作流程中至關重要的三種推理能力：專家圖像理解、假設生成和實驗提案。MicroVQA由生物學專家精心策劃的1,042道多項選擇題（MCQs）組成，涵蓋多種顯微鏡模態，確保VQA樣本代表真實的科學實踐。在構建基準的過程中，我們發現標準的MCQ生成方法會引入語言捷徑，這促使我們開發了一種新的兩階段流程：首先，通過優化的LLM提示將問答對結構化為MCQs；然後，基於代理的`RefineBot`更新這些問題以去除捷徑。在最先進的MLLMs上進行基準測試顯示，峰值性能為53%；較小的LLMs模型僅略微落後於頂級模型，這表明基於語言的推理比多模態推理更具挑戰性；而使用科學文章進行微調則能提升性能。專家對思維鏈響應的分析顯示，感知錯誤最為常見，其次是知識錯誤，最後是過度概括錯誤。這些見解凸顯了多模態科學推理的挑戰，表明MicroVQA是推動AI驅動生物醫學研究的寶貴資源。MicroVQA可在https://huggingface.co/datasets/jmhb/microvqa獲取，項目頁面位於https://jmhb0.github.io/microvqa。

WideRange4D：實現高品質四維重建，適用於大範圍運動與場景
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

Mar 17

ByLing Yang, Kaixin Zhu, Juanxi Tian, Bohan Zeng, Mingbao Lin, Hongjuan Pei, Wentao Zhang, Shuicheng Yan

隨著三維重建技術的快速發展，四維重建的研究也在不斷推進，現有的四維重建方法已能生成高質量的四維場景。然而，由於獲取多視角視頻數據的挑戰，當前的四維重建基準主要展示的是在固定位置進行的動作，如舞蹈，且場景有限。在實際應用中，許多場景涉及大範圍的空間移動，這凸顯了現有四維重建數據集的局限性。此外，現有的四維重建方法依賴於形變場來估計三維物體的動態，但形變場難以處理大範圍的空間移動，這限制了實現高質量大範圍空間移動四維場景重建的能力。本文聚焦於具有顯著物體空間移動的四維場景重建，提出了一個新的四維重建基準——WideRange4D。該基準包含豐富的具有大空間變化的四維場景數據，能夠更全面地評估四維生成方法的生成能力。進一步地，我們提出了一種新的四維重建方法——Progress4D，該方法在各種複雜的四維場景重建任務中都能生成穩定且高質量的四維結果。我們在WideRange4D上進行了定量和定性的對比實驗，結果表明我們的Progress4D優於現有的最先進四維重建方法。項目地址：https://github.com/Gen-Verse/WideRange4D

reWordBench：通過轉換輸入來評估並提升獎勵模型的魯棒性
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Mar 14

ByZhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad

獎勵模型已成為現代自然語言處理中的核心工具，不僅作為可擴展的文本評估器，更是許多對齊方案和推理時算法中不可或缺的組成部分。然而，儘管近期的獎勵模型在標準基準測試中提升了表現，這可能部分歸因於過擬合效應，這將混淆對其真實能力的理解。在本研究中，我們深入探討了獎勵模型的魯棒性以及此類過擬合的程度。我們構建了**reWordBench**，該工具系統性地以保持語意或排序不變的方式轉換獎勵模型的輸入。我們發現，即使面對微小的輸入轉換，最先進的獎勵模型也會遭受顯著的性能下降，有時甚至降至顯著低於隨機的準確率，表明其脆弱性。為了提升獎勵模型的魯棒性，我們提出明確訓練它們為同義句分配相似分數的方法，並發現這種方法也能提升對其他不同類型轉換的魯棒性。例如，在RewardBench的Chat Hard子集中，我們的魯棒獎勵模型將此類性能下降減少了約一半。此外，當應用於對齊時，我們的魯棒獎勵模型展現出更好的效用，並產生了更高質量的輸出，在與標準訓練的獎勵模型對比中，最高可贏得59%的實例。

VideoMind：一個基於LoRA鏈的長視頻推理代理
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Mar 17

ByYe Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou

影片以其獨特的時間維度，要求精確的基於事實的理解，其中答案需直接與可視化、可解釋的證據相連結。儘管大型語言模型在推理能力上取得了重大突破，但多模態推理——尤其是針對影片的推理——仍未被充分探索。在本研究中，我們介紹了VideoMind，這是一種專為時間基底的影片理解而設計的新穎影片-語言代理。VideoMind融合了兩項關鍵創新：(i) 我們識別了影片時間推理的必備能力，並開發了一種基於角色的代理工作流程，包括協調不同角色的規劃器、用於時間定位的定位器、評估時間區間準確性的驗證器，以及負責問答的回答器。(ii) 為了高效整合這些多樣化角色，我們提出了一種新穎的Chain-of-LoRA策略，通過輕量級的LoRA適配器實現無縫角色切換，同時避免了多個模型帶來的開銷，從而平衡了效率與靈活性。在14個公開基準上的廣泛實驗表明，我們的代理在多樣化的影片理解任務中達到了最先進的性能，包括3個基於事實的影片問答、6個影片時間定位，以及5個通用影片問答任務，彰顯了其在推進影片代理與長時序推理方面的有效性。

V-STaR：基於視頻時空推理的視頻大語言模型基準測試
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Mar 14

ByZixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong

人類處理視頻推理時遵循一種時序性的空間-時間推理邏輯，我們首先識別相關的幀（“何時”），然後分析關鍵物體之間的空間關係（“何處”），最後利用這些關係進行推斷（“什麼”）。然而，視頻大型語言模型（Video-LLMs）是否也能在視頻中“通過時序性的空間-時間邏輯進行推理”呢？現有的Video-LLM基準測試主要集中於評估物體的存在，而忽略了關係推理。因此，很難衡量一個模型是否真正理解了視頻中的物體互動（動作/事件），還是僅僅依賴於預訓練的“記憶”中的共現偏見來生成答案。在本研究中，我們引入了一個視頻空間-時間推理（V-STaR）基準來解決這些不足。其核心思想是將視頻理解分解為一個反向空間-時間推理（RSTR）任務，該任務同時評估了哪些物體存在、事件何時發生以及它們位於何處，同時捕捉底層的思維鏈（CoT）邏輯。為了支持這一評估，我們構建了一個數據集來引導Video-LLMs的空間-時間推理過程。該數據集包含由半自動化的GPT-4驅動的管道生成的從粗到細的CoT問題，嵌入顯式的推理鏈以模擬人類認知。在我們的V-STaR上對14個Video-LLMs進行的實驗揭示了當前Video-LLMs與穩健且一致的空間-時間推理需求之間存在顯著差距。

基於自由形式語言的機器人推理與抓取
Free-form language-based robotic reasoning and grasping

Mar 17

ByRunyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi

基於人類指令在雜亂的箱子中進行機器人抓取是一項具有挑戰性的任務，因為它需要同時理解自由形式語言的細微差別以及物體之間的空間關係。訓練於網絡規模數據的視覺-語言模型（VLMs），如GPT-4o，已經展示了在文本和圖像上的卓越推理能力。但它們是否真的能在零樣本設置下用於此任務？它們的局限性又是什麼？在本論文中，我們通過基於自由形式語言的機器人抓取任務探索這些研究問題，並提出了一種新方法——FreeGrasp，利用預訓練VLMs的世界知識來推理人類指令和物體空間排列。我們的方法將所有物體檢測為關鍵點，並使用這些關鍵點在圖像上進行標註，旨在促進GPT-4o的零樣本空間推理。這使得我們的方法能夠判斷請求的物體是否可以直接抓取，或者是否需要先抓取並移除其他物體。由於現有數據集並未專門為此任務設計，我們通過擴展MetaGraspNetV2數據集並加入人類註釋的指令和真實抓取序列，引入了一個合成數據集FreeGraspData。我們使用FreeGraspData進行了廣泛的分析，並通過配備夾具的機械臂進行了現實世界的驗證，展示了在抓取推理和執行方面的最先進性能。項目網站：https://tev-fbk.github.io/FreeGrasp/。

獎勵機制足以實現快速照片級真實感的文本到圖像生成
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

Mar 17

ByYihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang

對齊生成圖像與複雜文本提示及人類偏好，是人工智慧生成內容（AIGC）中的核心挑戰。隨著獎勵增強擴散蒸餾作為一種提升文本到圖像模型可控性和保真度的有前景方法出現，我們識別出一種根本性的範式轉變：隨著條件變得更加具體且獎勵信號更強，獎勵本身成為生成過程中的主導力量。相比之下，擴散損失則作為一種過於昂貴的正則化形式。為徹底驗證我們的假設，我們引入了R0，這是一種通過正則化獎勵最大化實現的新型條件生成方法。R0不再依賴於棘手的擴散蒸餾損失，而是提出了一種新視角，將圖像生成視為數據空間中的優化問題，旨在搜尋具有高組合獎勵的有效圖像。通過生成器參數化的創新設計和適當的正則化技術，我們大規模訓練了基於R0的頂尖少步文本到圖像生成模型。我們的結果挑戰了擴散後訓練和條件生成的傳統智慧，展示了在複雜條件下獎勵的主導作用。我們希望這些發現能促進AIGC領域內以人為本和以獎勵為中心的生成範式的進一步研究。代碼可在https://github.com/Luo-Yihong/R0獲取。

MTV-Inpaint：多任務長視頻修復技術
MTV-Inpaint: Multi-Task Long Video Inpainting

Mar 14

ByShiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao

影片修復涉及修改影片中的局部區域，確保空間和時間上的一致性。現有方法大多專注於場景補全（即填補缺失區域），而缺乏以可控方式在場景中插入新物體的能力。幸運的是，近期文字到影片（T2V）擴散模型的進展為文字引導的影片修復鋪平了道路。然而，直接將T2V模型應用於修復在統一補全與插入任務方面仍顯不足，缺乏輸入可控性，且在處理長影片時存在困難，從而限制了其應用範圍和靈活性。為應對這些挑戰，我們提出了MTV-Inpaint，一個統一的多任務影片修復框架，能夠處理傳統的場景補全和新穎的物體插入任務。為統一這些不同任務，我們在T2V擴散U-Net中設計了雙分支空間注意力機制，實現了場景補全與物體插入在單一框架內的無縫整合。除了文字引導外，MTV-Inpaint還通過我們提出的圖像到影片（I2V）修復模式，整合多種圖像修復模型，支援多模態控制。此外，我們提出了一個兩階段流程，結合關鍵幀修復與中間幀傳播，使MTV-Inpaint能夠有效處理包含數百幀的長影片。大量實驗證明，MTV-Inpaint在場景補全和物體插入任務中均達到了最先進的性能。此外，它在多模態修復、物體編輯、移除、圖像物體筆刷等衍生應用中展現了多樣性，並具備處理長影片的能力。項目頁面：https://mtv-inpaint.github.io/。

長視頻音頻合成與多智能體協作
Long-Video Audio Synthesis with Multi-Agent Collaboration

Mar 13

ByYehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen

視訊轉音訊合成技術，為視覺內容生成同步音訊，在電影和互動媒體中極大地提升了觀眾的沉浸感和敘事連貫性。然而，針對長篇內容的視訊轉音訊配音仍是一個未解的難題，原因在於動態語義轉變、時間對齊不準確以及缺乏專用數據集。現有方法雖在短視頻上表現出色，但在長場景（如電影）中卻因合成片段化和跨場景一致性不足而表現欠佳。我們提出了LVAS-Agent，這是一個新穎的多代理框架，通過協作角色專業化來模擬專業配音工作流程。我們的方法將長視頻合成分解為四個步驟，包括場景分割、劇本生成、音效設計和音訊合成。核心創新包括用於場景/劇本精煉的討論-修正機制，以及用於時序-語義對齊的生成-檢索循環。為了實現系統性評估，我們引入了LVAS-Bench，這是首個包含207個專業策劃的長視頻的基準測試，涵蓋多樣化場景。實驗結果顯示，相較於基線方法，我們的技術在音視覺對齊方面表現出顯著優勢。項目頁面：https://lvas-agent.github.io

使用NVIDIA NeMo訓練視頻基礎模型
Training Video Foundation Models with NVIDIA NeMo

Mar 17

ByZeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal

視訊基礎模型（Video Foundation Models, VFMs）近期被用於模擬真實世界，以訓練物理AI系統並開發創新的視覺體驗。然而，在訓練能夠生成高品質視訊的大規模、高品質VFMs方面，存在著顯著的挑戰。我們提出了一個可擴展的開源VFM訓練管道，結合NVIDIA NeMo，提供了加速的視訊資料集整理、多模態數據載入，以及並行化的視訊擴散模型訓練與推論。此外，我們還提供了一份全面的性能分析，強調了高效VFM訓練與推論的最佳實踐。

視覺化計數：利用視力正常用戶反饋構建面向視障人士的圖表描述數據集
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

Mar 17

ByWan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne

通常，标注者群體與終端使用者群體的需求和視覺能力存在差異。為盲人和低視力（BLV）用戶生成詳細的圖表描述便是一個具有挑戰性的領域。視力正常的標注者能夠輕鬆描述視覺內容，但現有研究表明，由他們直接生成的描述成本高昂、易帶偏見，且根據BLV標準來看有所欠缺。在本研究中，我們要求視力正常的個體評估——而非生成——由視覺語言模型（VLM）通過多輪推理潛在監督引導生成的圖表描述。這些視力正常的評估結果被證明對本身為BLV並教授視障學生的專業教育工作者有效且有用。我們發布了Sightation，這是一個包含5千張圖表和13.7萬個樣本的圖表描述數據集，用於完成、偏好、檢索、問答和推理訓練目的，並展示了其在多種下游任務中的微調潛力。

自迴歸視頻擴散模型的錯誤分析：一個統一框架
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

Mar 12

ByJing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang

多種自回歸視頻擴散模型（ARVDM）在生成逼真的長視頻方面取得了顯著成功。然而，對這些模型的理論分析仍然不足。在本研究中，我們為這些模型建立了理論基礎，並利用我們的見解來提升現有模型的性能。我們首先開發了Meta-ARVDM，這是一個統一框架，涵蓋了大多數現有方法。通過Meta-ARVDM，我們分析了由Meta-ARVDM生成的視頻與真實視頻之間的KL散度。我們的分析揭示了ARVDM固有的兩個重要現象——誤差累積和記憶瓶頸。通過推導信息論上的不可能性結果，我們表明記憶瓶頸現象無法避免。為了緩解記憶瓶頸，我們設計了各種網絡結構，以顯式地利用更多的過去幀。我們還通過壓縮幀，在緩解記憶瓶頸和推理效率之間實現了顯著改善的平衡。在DMLab和Minecraft上的實驗結果驗證了我們方法的有效性。我們的實驗還展示了不同方法在誤差累積和記憶瓶頸之間的帕累托前沿。

利用機制可解釋性來構建針對大型語言模型的對抗攻擊
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models

Mar 8

ByThomas Winninger, Boussad Addad, Katarzyna Kapusta

傳統上，針對大型語言模型（LLMs）生成對抗性擾動的白盒方法通常僅依賴於目標模型的梯度計算，而忽略了導致攻擊成功或失敗的內部機制。相反，分析這些內部機制的可解釋性研究則缺乏超越運行時干預的實際應用。我們通過引入一種新穎的白盒方法來彌合這一差距，該方法利用機制可解釋性技術來構建實用的對抗性輸入。具體而言，我們首先識別接受子空間——即不會觸發模型拒絕機制的特徵向量集合——然後使用基於梯度的優化將嵌入從拒絕子空間重新路由到接受子空間，從而有效實現越獄。這種針對性方法顯著降低了計算成本，在包括Gemma2、Llama3.2和Qwen2.5在內的最新模型上，攻擊成功率達到80-95%，且僅需幾分鐘甚至幾秒鐘，而現有技術往往失敗或需要數小時的計算。我們相信這種方法為攻擊研究和防禦開發開闢了新的方向。此外，它展示了機制可解釋性在其他方法效率較低時的實際應用，突顯了其效用。代碼和生成的數據集可在https://github.com/Sckathach/subspace-rerouting獲取。

GenStereo：邁向立體影像的開放世界生成與無監督匹配
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching

Mar 17

ByFeng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs

立體影像是許多應用的基礎，包括擴展現實（XR）設備、自動駕駛和機器人技術。然而，由於雙攝像頭設置的精確校準要求以及獲取準確、密集視差圖的複雜性，獲取高質量的立體影像仍然具有挑戰性。現有的立體影像生成方法通常專注於觀看的視覺質量或匹配的幾何精度，但無法兼顧兩者。我們引入了GenStereo，這是一種基於擴散的方法，以彌補這一差距。該方法包括兩項主要創新：（1）在擴散過程中基於視差感知的座標嵌入和變形輸入圖像進行條件化，從而實現比以往方法更精確的立體對齊；（2）一種自適應融合機制，智能地將擴散生成的圖像與變形圖像結合，提高真實感和視差一致性。通過在11個多樣化的立體數據集上進行廣泛訓練，GenStereo展示了強大的泛化能力。GenStereo在立體影像生成和無監督立體匹配任務中均達到了最先進的性能。我們的框架消除了對複雜硬件設置的需求，同時實現了高質量的立體影像生成，使其在實際應用和無監督學習場景中都具有重要價值。項目頁面可在https://qjizhi.github.io/genstereo查看。

探究與人類認知一致的大型語言模型不確定性
Investigating Human-Aligned Large Language Model Uncertainty

Mar 16

ByKyle Moore, Jesse Roberts, Daryl Watson, Pamela Wisniewski

近期研究致力於量化大型語言模型的不確定性，以促進模型控制並調節用戶信任。先前的工作主要關注那些具有理論基礎或反映模型平均顯著行為的不確定性度量。在本研究中，我們探討了多種不確定性度量，旨在識別與人類群體層面不確定性相關的度量。我們發現，貝葉斯度量及熵度量的一種變體——top-k熵，隨著模型規模的變化，其表現與人類行為趨於一致。我們還觀察到，某些強度量隨著模型規模的增大，其與人類相似性有所下降，但通過多元線性回歸分析，我們發現結合多種不確定性度量能夠提供與人類對齊相當的效果，同時減少對模型規模的依賴。

WISA：面向物理感知文本到視頻生成的世界模擬器助手
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

Mar 11

ByJing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang

近期，文本到視頻（T2V）生成技術的快速進展，如SoRA和Kling，展現了構建世界模擬器的巨大潛力。然而，現有的T2V模型在理解抽象物理原理及生成符合物理法則的視頻方面仍面臨挑戰。這一挑戰主要源於抽象物理原理與生成模型之間存在顯著鴻溝，導致物理信息缺乏明確指導。為此，我們引入了世界模擬助手（WISA），這是一個有效框架，用於分解並將物理原理融入T2V模型。具體而言，WISA將物理原理分解為文本物理描述、定性物理類別和定量物理屬性。為了有效將這些物理屬性嵌入生成過程，WISA採用了多項關鍵設計，包括物理專家混合注意力機制（MoPA）和物理分類器，從而增強模型的物理感知能力。此外，現有數據集中大多數視頻的物理現象要么表現微弱，要么與多個同時發生的過程交織，限制了它們作為學習明確物理原理專用資源的適用性。我們提出了一個基於定性物理類別收集的新穎視頻數據集——WISA-32K，它包含32,000個視頻，涵蓋動力學、熱力學和光學三個物理領域的17條物理定律。實驗結果表明，WISA能有效提升T2V模型與現實世界物理法則的兼容性，在VideoPhy基準測試上取得了顯著進步。WISA及WISA-32K的視覺展示可於https://360cvgroup.github.io/WISA/查看。

視覺語言模型中的基礎類別使用
Basic Category Usage in Vision Language Models

Mar 16

ByHunter Sawyer, Jesse Roberts, Kyle Moore

心理學領域長期以來已認識到人類在標記視覺刺激時所使用的一種基本層次分類，此概念由Rosch於1976年提出。研究發現，這一層次的分類最為常用，具有更高的信息密度，並能通過啟動效應輔助人類完成視覺語言任務。本文探討了兩種近期發布的開源視覺語言模型（VLMs）中的基本層次分類行為。研究表明，Llama 3.2 Vision Instruct（11B）和Molmo 7B-D均表現出與人類行為一致的基本層次分類偏好。此外，這些模型的偏好還與人類的細微行為相符，如生物與非生物基本層次效應以及廣為人知的專家基本層次轉移現象，進一步表明視覺語言模型從其訓練所基於的人類數據中習得了認知分類行為。

AI研究論文每日精選

每日精選AI研究論文及翻譯

DropletVideo：探索时空一致性视频生成的數據集與方法
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Mar 8

ByRunze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan

138

Being-0：一款配备视觉语言模型与模块化技能的人形机器人代理
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Mar 16

ByHaoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu

免費實現萬物個性化：基於擴散變換器的技術
Personalize Anything for Free with Diffusion Transformer

Mar 16

ByHaoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng

SPIN-Bench：大型語言模型在戰略規劃與社交推理上的表現如何？
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

Mar 16

ByJianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath

DreamRenderer：駕馭大規模文本到圖像模型中的多實例屬性控制
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Mar 17

ByDewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang

多模態思維鏈推理：全面綜述
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Mar 16

ByYaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei

R1-VL：通過逐步群組相對策略優化學習多模態大型語言模型的推理能力
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Mar 17

ByJingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao

編輯遷移：通過視覺上下文關係學習圖像編輯
Edit Transfer: Learning Image Editing via Vision In-Context Relations

Mar 17

ByLan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou

BlobCtrl：一個統一且靈活的框架，用於元素級圖像生成與編輯
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Mar 17

ByYaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou

MicroVQA：基於顯微鏡的科學研究之多模態推理基準
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Mar 17

WideRange4D：實現高品質四維重建，適用於大範圍運動與場景
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

Mar 17

ByLing Yang, Kaixin Zhu, Juanxi Tian, Bohan Zeng, Mingbao Lin, Hongjuan Pei, Wentao Zhang, Shuicheng Yan

reWordBench：通過轉換輸入來評估並提升獎勵模型的魯棒性
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Mar 14

ByZhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad

VideoMind：一個基於LoRA鏈的長視頻推理代理
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Mar 17

ByYe Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou

V-STaR：基於視頻時空推理的視頻大語言模型基準測試
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Mar 14

ByZixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong

基於自由形式語言的機器人推理與抓取
Free-form language-based robotic reasoning and grasping

Mar 17

ByRunyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi

獎勵機制足以實現快速照片級真實感的文本到圖像生成
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

Mar 17

ByYihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang

MTV-Inpaint：多任務長視頻修復技術
MTV-Inpaint: Multi-Task Long Video Inpainting

Mar 14

ByShiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao

長視頻音頻合成與多智能體協作
Long-Video Audio Synthesis with Multi-Agent Collaboration

Mar 13

ByYehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen

使用NVIDIA NeMo訓練視頻基礎模型
Training Video Foundation Models with NVIDIA NeMo

Mar 17

視覺化計數：利用視力正常用戶反饋構建面向視障人士的圖表描述數據集
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

Mar 17

ByWan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne