每日精選AI研究論文及翻譯
從人類反饋中學習的強化學習(RLHF)已成為將大型語言模型與人類偏好對齊的關鍵方法,通過諸如Proximal Policy Optimization(PPO)、Direct Preference Optimization(DPO)、REINFORCE Leave One-Out(RLOO)、ReMax和Group Relative Policy Optimization(GRPO)等方法,見證了快速的算法演進。我們提出了REINFORCE++,這是對經典REINFORCE算法的增強變體,它融合了PPO的關鍵優化技術,同時消除了對評論網絡的需求。REINFORCE++實現了三個主要目標:(1)簡單性,(2)增強的訓練穩定性,以及(3)降低的計算開銷。通過廣泛的實證評估,我們證明了REINFORCE++相對於GRPO表現出更優越的穩定性,並實現了比PPO更大的計算效率,同時保持可比的性能。該實現可在https://github.com/OpenRLHF/OpenRLHF 上找到。
物理人工智慧首先需要在數位上進行訓練。它需要有自己的數位孿生,即政策模型,以及世界的數位孿生,即世界模型。在本文中,我們提出了 Cosmos 世界基金會模型平台,以幫助開發人員為其物理人工智慧設置建立定制的世界模型。我們將世界基金會模型定位為一個通用的世界模型,可以進一步調整為用於下游應用的定制世界模型。我們的平台涵蓋了視頻編輯流程、預先訓練的世界基金會模型、預先訓練的世界基金會模型後訓練的示例,以及視頻分詞器。為了幫助物理人工智慧建構者解決我們社會最關鍵的問題,我們將我們的平台開源,並且我們的模型以開放權重的形式提供,可通過 https://github.com/NVIDIA/Cosmos 獲取。
隨著 GPT-4o 等實時大型多模型(LMM)的出現,引發了對高效 LMM 的廣泛興趣。LMM 框架通常將視覺輸入編碼為視覺標記(連續表示),並將它們與文本指令整合到大型語言模型(LLMs)的上下文中,其中大規模參數和眾多上下文標記(主要是視覺標記)導致了大量的計算開銷。以往對高效 LMM 的努力總是集中在用較小的模型替換 LLM 骨幹,而忽略了標記數量的關鍵問題。本文介紹了 LLaVA-Mini,一種具有最少視覺標記的高效 LMM。為了實現視覺標記的高壓縮比率並保留視覺信息,我們首先分析了 LMM 如何理解視覺標記,發現大多數視覺標記僅在 LLM 骨幹的早期層中發揮關鍵作用,主要將視覺信息融入文本標記中。基於這一發現,LLaVA-Mini 引入了模態預融合,提前將視覺信息融入文本標記,從而促進將餵入 LLM 骨幹的視覺標記極端壓縮為一個標記。LLaVA-Mini 是一個統一的大型多模型,可以有效地支持對圖像、高分辨率圖像和視頻的理解。在 11 個基於圖像和 7 個基於視頻的基準測試中進行的實驗表明,LLaVA-Mini 在只使用 1 個視覺標記而非 576 個的情況下勝過 LLaVA-v1.5。效率分析顯示,LLaVA-Mini 可以將 FLOPs 減少 77%,在 40 毫秒內提供低延遲響應,在具有 24GB 記憶體的 GPU 硬件上處理超過 10,000 幀的視頻。
本研究提出了Sa2VA,這是第一個統一的模型,用於密集地理解圖像和視頻。與現有的多模態大型語言模型不同,這些模型通常僅限於特定的模態和任務,Sa2VA支持廣泛的圖像和視頻任務,包括指涉分割和對話,並且只需進行最少的一次性指導調整。Sa2VA將SAM-2(一個基礎視頻分割模型)與LLaVA(一個先進的視覺語言模型)結合起來,並將文本、圖像和視頻統一到共享的LLM標記空間中。使用LLM,Sa2VA生成指導SAM-2生成精確遮罩的指令標記,實現對靜態和動態視覺內容的基礎多模態理解。此外,我們介紹了Ref-SAV,這是一個包含超過72k個複雜視頻場景中物體表達的自動標記數據集,旨在提高模型性能。我們還手動驗證了Ref-SAV數據集中的2k個視頻對象,以評估在複雜環境中的指涉視頻對象分割。實驗表明,Sa2VA在多個任務中實現了最先進的水平,特別是在指涉視頻對象分割方面,突顯了其在複雜現實應用中的潛力。
近年來,視覺語言模型(VLMs)在視頻理解方面取得了顯著進展。然而,一個至關重要的能力 - 細粒度運動理解 - 在當前的基準測試中仍未得到充分探索。為了填補這一空白,我們提出了MotionBench,這是一個全面的評估基準測試,旨在評估視頻理解模型對細粒度運動理解的能力。MotionBench通過六個主要類別的運動導向問題類型評估模型的運動級別感知,並包含從多源收集的數據,確保對現實世界視頻內容的廣泛代表性。實驗結果顯示,現有的VLMs在理解細粒度運動方面表現不佳。為了增強VLM在有限序列長度的情況下感知細粒度運動的能力,我們進行了大量實驗,檢視了針對視頻特徵壓縮進行優化的VLM架構,並提出了一種新穎且高效的Through-Encoder(TE)融合方法。實驗表明,更高的幀率輸入和TE融合可以提高運動理解能力,但仍有很大的改進空間。我們的基準測試旨在引導和激勵更具能力的視頻理解模型的發展,強調細粒度運動理解的重要性。項目頁面:https://motion-bench.github.io。
擴散模型已經展示出在從文本提示或圖像生成高質量視頻方面的出色表現。然而,對於視頻生成過程的精確控制,如攝像頭操作或內容編輯,仍然是一個重大挑戰。現有的控制視頻生成方法通常僅限於單一控制類型,缺乏處理多樣控制需求的靈活性。在本文中,我們介紹了Shader作為擴散(DaS),這是一種支持統一架構內多個視頻控制任務的新方法。我們的關鍵見解是,實現多功能視頻控制需要利用3D控制信號,因為視頻基本上是動態3D內容的2D渲染。與先前僅限於2D控制信號的方法不同,DaS利用3D跟踪視頻作為控制輸入,使視頻擴散過程本質上具有3D感知。這種創新使DaS能夠通過簡單操作3D跟踪視頻實現廣泛的視頻控制。使用3D跟踪視頻的另一個優勢是它們能夠有效地連接幀,顯著增強所生成視頻的時間一致性。僅通過在8 H800 GPU上進行不到10k視頻的3天微調,DaS展示了在各種任務上的強大控制能力,包括網格到視頻生成、攝像頭控制、運動轉移和對象操作。
從文件自動生成簡報是一項具有挑戰性的任務,需要平衡內容質量、視覺設計和結構連貫。現有方法主要集中於改進和評估內容質量,往往忽略視覺設計和結構連貫,這限制了它們的實際應用性。為了解決這些限制,我們提出了PPTAgent,通過受人類工作流程啟發的兩階段基於編輯的方法全面改進簡報生成。PPTAgent首先分析參考簡報以了解其結構模式和內容架構,然後通過代碼操作起草大綱並生成幻燈片,以確保一致性和對齊。為了全面評估生成簡報的質量,我們進一步引入了PPTEval,一個評估框架,評估簡報的三個維度:內容、設計和連貫。實驗表明,PPTAgent在所有三個維度上明顯優於傳統的自動簡報生成方法。代碼和數據可在https://github.com/icip-cas/PPTAgent找到。
最近在全模態學習方面取得了重要進展,涵蓋了圖像、文本和語音的理解和生成,儘管主要是在專有模型中實現的。由於全模態數據集有限,以及與實時情感語音生成相關的固有挑戰,阻礙了開源進展。為了應對這些問題,我們提出了openomni,一種結合全模態對齊和語音生成的兩階段訓練方法,以開發最先進的全模態大型語言模型。在對齊階段,一個預訓練的語音模型進一步在文本-圖像任務上進行訓練,以(近乎)零-shot方式從視覺泛化到語音,勝過在三模態數據集上訓練的模型。在語音生成階段,一個輕量級解碼器通過在語音任務和偏好學習上進行訓練,實現實時情感語音。實驗表明,openomni在全模態、視覺-語言和語音-語言評估中持續改進,實現自然、情感豐富的對話和實時情感語音生成。
科學研究範式正在深刻轉變,這歸因於人工智慧(AI)的發展。最近的研究表明,各種AI輔助的研究方法可以大大提高研究效率,通過改善數據分析、加速計算和促進新思想的產生。為了更進一步朝著最終目標(即自動科學研究)邁進,在本文中,我們提出了Dolphin,這是第一個封閉迴路的開放式自動研究框架,以進一步構建整個人類科學研究過程。Dolphin能夠產生研究思想,執行實驗,並從實驗結果中獲得反饋,以生成更高質量的思想。具體而言,Dolphin首先基於按主題和任務屬性排名的相關論文生成新思想。然後,代碼將根據異常-回溯引導的本地代碼結構自動生成和調試。最後,Dolphin自動分析每個思想的結果,並將結果反饋給下一輪的思想生成。在不同主題的基準數據集上進行實驗,結果顯示Dolphin能夠持續生成新思想並完成循環實驗。我們強調Dolphin能夠自動提出與某些任務(如2D圖像分類和3D點分類)中的最新技術相媲美的方法。
我們提出了Magic Mirror,一個用於生成保持身份的影片的框架,具有電影級質量和動態運動。儘管最近在視頻擴散模型方面取得了顯著進展,展示了在文本到視頻生成方面令人印象深刻的能力,但在生成自然運動的同時保持一致的身份仍然具有挑戰性。先前的方法要求進行特定人物的微調,或者在保持身份一致性與運動多樣性之間掙扎。基於Video Diffusion Transformers,我們的方法引入了三個關鍵組件:(1) 雙分支面部特徵提取器,捕捉身份和結構特徵,(2) 帶有Conditioned Adaptive Normalization的輕量級跨模態適配器,用於高效整合身份,以及(3) 將合成身份對與視頻數據相結合的兩階段訓練策略。大量實驗表明,Magic Mirror有效地平衡了身份一致性和自然運動,優於現有方法在多個指標上,同時需要添加最少的參數。代碼和模型將公開提供在:https://github.com/dvlab-research/MagicMirror/
3D 高斯點陣化(3DGS)在場景表示和神經渲染方面取得了顯著進展,並且積極致力於將其應用於動態場景。儘管現有方法在提供卓越的渲染質量和速度方面取得了成功,但在存儲需求和表示複雜現實世界運動方面仍然存在困難。為了應對這些問題,我們提出了MoDecGS,這是一個記憶效率高的高斯點陣化框架,旨在重建具有複雜運動的具有挑戰性場景中的新視圖。我們引入了全局到局部運動分解(GLMD),以有效地以粗到細的方式捕捉動態運動。這種方法利用全局標準支架(Global CS)和局部標準支架(Local CS),將靜態支架表示擴展到動態視頻重建。對於全局 CS,我們提出全局錨點變形(GAD)來有效地表示沿複雜運動的全局動態,通過直接變形隱式支架屬性,這些屬性是錨點位置、偏移和局部上下文特徵。接下來,我們通過局部高斯變形(LGD)明確調整局部運動。此外,我們引入了時間間隔調整(TIA)來在訓練期間自動控制每個局部 CS 的時間覆蓋範圍,使 MoDecGS 能夠基於指定的時間段數找到最佳的時間間隔分配。廣泛的評估表明,MoDecGS 在來自現實世界動態視頻的動態 3D 高斯模型方面,相對於最先進的方法,實現了平均模型大小減少 70%,同時保持甚至提高了渲染質量。
從人類反饋中學習的強化學習(RLHF)已被廣泛應用於對齊語言模型(LMs)與人類偏好。先前的RLHF工作通常採用樂觀化的形式,儘管直觀,但忽略了LM生成的順序性,可能受到稀疏獎勵問題的困擾。最近的研究提出了密集的標記級RLHF,將每個標記視為一個動作可能對適當的獎勵分配過於微妙。在本文中,我們試圖通過訓練和利用一個段級獎勵模型來兼顧兩者,該模型為每個跨越短序列標記的語義完整文本段分配獎勵。對於獎勵學習,我們的方法允許動態文本分割並與標準序列偏好數據集兼容。為了有效地進行基於RL的LM訓練以應對段獎勵,我們將經典的樂觀標量獎勵歸一化器推廣為具有位置感知能力的歸一化器函數,並對段獎勵進行插值以進一步增加密度。通過這些設計,我們的方法在LM策略的三個流行的RLHF基準測試中表現出競爭力:AlpacaEval 2.0、Arena-Hard和MT-Bench。進行了消融研究以進一步展示我們的方法。
我們提出了一種修改Transformer架構的方法,通過將圖識別關聯推理整合到注意機制中,融合了圖神經網絡和語言建模的概念。基於注意力和圖論之間固有的聯繫,我們將Transformer的注意機制重新表述為圖操作,並提出了具有圖識別同構注意力的方法。該方法利用先進的圖建模策略,包括圖同構網絡(GIN)和主要鄰域聚合(PNA),來豐富關係結構的表示。我們的方法捕捉了複雜的依賴關係,並在各種任務中實現泛化,這表現為泛化差距減少和學習性能提高。此外,我們將圖識別注意力的概念擴展到引入稀疏GIN-Attention,一種利用稀疏GIN進行微調的方法。通過將注意力矩陣解釋為稀疏鄰接圖,該技術提高了預訓練基礎模型的適應性,並賦予其圖識別能力,同時帶來最小的計算開銷。與低秩適應(LoRA)等替代方法相比,稀疏GIN-Attention微調實現了改進的訓練動態和更好的泛化。我們討論了傳統注意機制中的潛在類似圖結構,提供了一種新的理解Transformer的透鏡。通過將Transformer演變為用於關聯推理的分層GIN模型,這種觀點對基礎模型開發具有深遠的影響,實現了能夠動態適應本地和全局依賴關係的架構的設計。生物信息學、材料科學、語言建模等領域的應用可能受益於這種關聯和序列數據建模的綜合,為可解釋和泛化建模策略奠定了基礎。
我們解決了通過控制來自同一人的面部動作單元(AU)的相對變化來進行面部表情編輯的問題。這使我們能夠以精細、連續且可解釋的方式編輯這個特定人的表情,同時保留其身份、姿勢、背景和詳細的面部特徵。我們所提出的模型MagicFace 的關鍵在於一個以AU變化為條件的擴散模型和一個ID編碼器,以保留高一致性的面部細節。具體來說,為了保留具有輸入身份的面部細節,我們利用預訓練的穩定擴散模型的能力,並設計了一個ID編碼器通過自我關注來合併外觀特徵。為了保持背景和姿勢的一致性,我們引入了一個高效的屬性控制器,明確告知模型目標的當前背景和姿勢。通過將AU變化注入去噪UNet,我們的模型可以使用各種AU組合使任意身份動畫化,相對於其他面部表情編輯作品,在高保真度表情編輯方面產生了優越的結果。代碼可在https://github.com/weimengting/MagicFace 公開獲取。
基於文本引導的影像擴散模型在基於文本提示翻譯影像方面表現優異,可實現精確且具創意的視覺修改。然而,這種強大的技術可能被濫用來傳播虛假信息、侵犯版權並逃避內容追蹤。這促使我們引入了面向文本引導的影像擴散模型的原始識別任務(ID^2),旨在檢索給定翻譯查詢的原始影像。ID^2的一個直接解決方案涉及訓練一個專門的深度嵌入模型,以提取並比較查詢和參考影像的特徵。然而,由於不同擴散模型生成的世代之間存在視覺差異,這種基於相似性的方法在從一個模型訓練並在另一個模型上測試的情況下失敗,限制了其在現實應用中的有效性。為了解決所提出的ID^2任務的這一挑戰,我們提出了第一個數據集和一個在理論上保證的方法,兩者都強調通用性。精心策劃的數據集OriPID包含豐富的原始和引導提示,可用於訓練和測試潛在的識別模型,跨不同擴散模型。在方法部分,我們首先證明了一種線性轉換的存在,該轉換可以最小化預先訓練的變分自編碼器(VAE)嵌入的生成樣本與其原始之間的距離。隨後,證明了這種簡單的線性轉換可以在不同的擴散模型之間通用。實驗結果表明,所提出的方法實現了令人滿意的通用性能,顯著超越了基於相似性的方法(+31.6% mAP),即使是具有通用性設計的方法也是如此。