每日精選AI研究論文及翻譯
在計算機視覺中,文件內容提取對於滿足大型語言模型(LLMs)和檢索增強生成(RAG)技術對高質量數據的需求至關重要。然而,目前的文件解析方法在多樣性和全面評估方面存在顯著限制。為應對這些挑戰,我們引入了OmniDocBench,一個新穎的多來源基準,旨在推進自動化文件內容提取。OmniDocBench包括一個精心策劃和標註的高質量評估數據集,包括學術論文、教科書、幻燈片等九種不同類型的文件。我們的基準提供了一個靈活且全面的評估框架,具有19個版面分類標籤和14個屬性標籤,可實現對整個數據集、單個模塊或特定數據類型的多級評估。利用OmniDocBench,我們對現有的模塊化管道和多模式端到端方法進行了詳盡的比較分析,凸顯了它們在處理文件多樣性方面的局限性,確保公平評估。OmniDocBench為文件內容提取領域建立了一個堅固、多樣且公平的評估標準,為未來的進步提供了重要見解,促進了文件解析技術的發展。代碼和數據集可在https://github.com/opendatalab/OmniDocBench找到。
大型語言模型(LLMs)被限制在「語言空間」中進行推理,通常使用一連串思維(CoT)來解決複雜的推理問題。然而,我們認為語言空間並非始終適合推理。例如,大多數詞彙標記主要用於文本連貫性,對於推理並非必要,而一些關鍵標記需要複雜的規劃,對LLMs構成巨大挑戰。為了探索LLM在無限制的潛在空間中進行推理的潛力,而非使用自然語言,我們引入了一個新範式 Coconut(連續思維鏈)。我們利用LLM的最後隱藏狀態作為推理狀態的表示(稱為「連續思維」)。我們不將其解碼為詞彙標記,而是將其直接作為後續輸入嵌入回饋給LLM,以連續空間進行。實驗表明,Coconut可以有效增強LLM在幾個推理任務上的表現。這種新穎的潛在推理範式帶來了新興的高級推理模式:連續思維可以編碼多個替代的下一個推理步驟,使模型能夠執行廣度優先搜索(BFS)來解決問題,而不像CoT那樣過早地承諾單一的確定路徑。在某些需要在規劃過程中進行大量回溯的邏輯推理任務中,Coconut在推論過程中思考標記較少,優於CoT。這些發現展示了潛在推理的潛力,並為未來研究提供了寶貴的見解。
由於語言模型在解決數學問題時經常出錯,因此自動識別推理過程中的錯誤變得越來越重要,以便進行可擴展的監督。本文介紹了ProcessBench,用於衡量識別數學推理中錯誤步驟的能力。它包含3,400個測試案例,主要聚焦於競賽和奧林匹亞級別的數學問題。每個測試案例都包含一個逐步解決方案,其中錯誤位置由人類專家標註。模型需要識別包含錯誤的最早步驟,或得出所有步驟均正確的結論。我們在ProcessBench上進行了廣泛評估,涉及兩種模型:過程獎勵模型(PRMs)和評論模型,對於後者,我們提示一般語言模型逐步評論每個解決步驟。我們得出兩個主要觀察結果:(1)現有的PRMs通常無法推廣到GSM8K和MATH之外更具挑戰性的數學問題。它們的表現不及評論模型(即提示的一般語言模型)和我們自己在PRM800K數據集上簡單微調的PRM。 (2)最佳的開源模型QwQ-32B-Preview,儘管仍遠遠落後於專注推理的o1-mini,但已展示出與專有模型GPT-4o競爭力的評論能力。我們希望ProcessBench能促進未來推理過程評估的研究,為語言模型的可擴展監督鋪平道路。
將記憶融入代理人對於強化學習(RL)領域內眾多任務至關重要。特別是,記憶對於需要利用過去資訊、適應新環境和提高樣本效率的任務至關重要。然而,“記憶”一詞涵蓋了廣泛的概念,再加上缺乏統一的方法來驗證代理人記憶,導致對代理人記憶能力的錯誤判斷,並阻礙與其他增強記憶代理人客觀比較。本文旨在通過提供實用的準確定義來精簡RL中的記憶概念,例如長期記憶與短期記憶、陳述性記憶與程序性記憶等,靈感來自認知科學。利用這些定義,我們將代理人記憶的不同類別進行分類,提出了一種強化學習代理人記憶能力評估的穩健實驗方法,並標準化評估。此外,我們通過對不同RL代理人進行實驗來實證遵循所提出方法的重要性,以及其違反將導致的後果。
大視覺語言模型(VLMs)的快速發展在學術基準測試中取得了令人印象深刻的成果,主要是在廣泛使用的語言中。然而,目前的 VLMs 在處理低資源語言和不同文化背景方面仍存在顯著差距,這主要是由於缺乏高質量、多樣性和經過安全審核的數據。因此,這些模型通常難以從毒性中自由地理解低資源語言和文化細微差異。為了解決這些限制,我們介紹了 Maya,一個開源的多模態多語言模型。我們的貢獻有三個方面:1)基於 LLaVA 預訓練數據集,在八種語言中提供了一個多語言圖像文本預訓練數據集;2)對 LLaVA 數據集中的毒性進行了深入分析,然後創建了一個跨八種語言的新型無毒版本;以及 3)支持這些語言的多語言圖像文本模型,增強了在視覺語言任務中的文化和語言理解。代碼可在 https://github.com/nahidalam/maya 找到。
全球視覺地理定位預測圖像在地球上的拍攝位置。由於圖像在定位精確度上存在差異,這個任務固有地涉及相當程度的模糊性。然而,現有方法是確定性的,並忽略了這一方面。在本文中,我們旨在縮小傳統地理定位和現代生成方法之間的差距。我們提出了基於擴散和黎曼流匹配的第一個生成式地理定位方法,其中去噪過程直接在地球表面上運作。我們的模型在三個視覺地理定位基準測試中實現了最先進的性能:OpenStreetView-5M、YFCC-100M和iNat21。此外,我們引入了概率視覺地理定位任務,模型預測所有可能位置上的概率分佈,而不是單一點。我們為這個任務引入了新的指標和基準線,展示了我們基於擴散的方法的優勢。代碼和模型將會提供。
多模式大型語言模型(MLLMs)在視覺-語言任務中表現出色,僅通過對粗粒度概念標註(例如圖像標題)進行預訓練。我們假設整合細粒度概念標註(例如對象標籤和對象區域)將進一步提高性能,因為這兩種數據粒度在概念表示的廣度和深度方面互補。我們為MLLMs引入了一個新的數據集,其中包含多模式多粒度概念標註(MMGiC)。在構建MMGiC時,我們探討了不同數據配方對多模式理解和生成的影響。我們的分析顯示,多粒度概念標註在我們的結構化模板和通用MLLM框架下相互整合和互補。我們清晰地探索並展示了MMGiC幫助MLLMs更好地定位和學習概念的潛力,實現視覺和語言在多個粒度上的對齊。通過研究MMGiC與圖像-標題數據在12個多模式理解和生成基準測試中的公平比較和有效協作,我們進一步驗證了我們的假設,例如它們的適當組合在POPE和SEED-Bench上相對於僅圖像-標題數據可以實現3.95%和2.34%的絕對改進。代碼、數據和模型將在https://github.com/LooperXX/MMGiC 上提供。
近年來,對於在大型語言模型(LLMs)中統一影像理解和生成的興趣顯著增加。這種持續增長的興趣促使我們探索將這種統一擴展到視頻。核心挑戰在於開發一種多功能的視頻分詞器,捕捉視頻的空間特徵和時間動態,以獲得LLMs的表示,並且這些表示可以進一步解碼為逼真的視頻片段,從而實現視頻生成。在這項工作中,我們介紹了Divot,一種利用擴散過程進行自監督視頻表示學習的視頻分詞器。我們認為,如果一個視頻擴散模型能夠通過將視頻分詞器的特徵作為條件有效去噪視頻片段,則該分詞器已成功捕捉到堅固的空間和時間信息。此外,視頻擴散模型本質上充當解密器,從其表示解碼視頻。在Divot分詞器的基礎上,通過視頻到文本自回歸和文本到視頻生成,我們提出了Divot-Vicuna,通過用高斯混合模型對連續值Divot特徵的分佈進行建模。實驗結果表明,我們基於擴散的視頻分詞器,當與預訓練的LLM集成時,在各種視頻理解和生成基準測試中取得了競爭性表現。經調整的Divot-Vicuna在視頻敘事方面表現出色,生成交錯的敘事和相應的視頻。
最近的3D生成模型通常依賴有限規模的3D「黃金標籤」或2D擴散先驗進行3D內容創建。然而,由於缺乏可擴展的學習範式,它們的表現受到受限3D先驗的上限約束。在這項工作中,我們提出了See3D,這是一個在大規模互聯網視頻上訓練的視覺條件多視圖擴散模型,用於開放世界的3D創建。該模型旨在通過僅從龐大且迅速增長的視頻數據中看到的視覺內容來獲取3D知識--你看到它,你就擁有它。為了實現這一目標,我們首先通過提出的數據策劃流程擴大訓練數據,該流程自動過濾源視頻中的多視圖不一致性和不足觀察。這導致了一個高質量、豐富多樣、大規模的多視圖圖像數據集,稱為WebVi3D,其中包含來自1600萬視頻剪輯的3.2億幀。然而,從沒有明確3D幾何或相機姿態標註的視頻中學習通用3D先驗是非常困難的,而為Web規模的視頻標註姿態成本過高。為了消除對姿態條件的需求,我們引入了一種創新的視覺條件--通過向遮罩視頻數據添加時間依賴性噪聲生成的純2D歸納視覺信號。最後,我們通過將See3D集成到基於變形的管道中,為高保真度的3D生成引入了一種新穎的視覺條件3D生成框架。我們在單一和稀疏重建基準上的數值和視覺比較表明,使用成本效益和可擴展的視頻數據訓練的See3D實現了顯著的零樣本和開放世界生成能力,遠遠優於在昂貴和受限制的3D數據集上訓練的模型。請參考我們的項目頁面:https://vision.baai.ac.cn/see3d
線性轉換器已被視為標準Transformer的高效替代方案,但在檢索和長文本任務中的表現有限。為了解決這些限制,最近的研究探索了兩種不同的機制:閘控制適應性記憶控制和Δ更新規則用於精確記憶修改。我們觀察到這些機制是互補的:閘控制使快速記憶消除成為可能,而Δ規則則促進有針對性的更新。基於這一洞察,我們引入了閘控Δ規則並開發了一個針對現代硬體優化的並行訓練算法。我們提出的架構,閘控Δ網絡(Gated DeltaNet),在多個基準測試中持續超越現有模型,如Mamba2和DeltaNet,包括語言建模、常識推理、上下文檢索、長度外推和長文本理解。我們通過開發將閘控Δ網絡層與滑動窗口注意力或Mamba2層結合的混合架構,進一步提高了性能,實現了訓練效率的提升和優越的任務表現。
在這項工作中,我們提出了擴散Transformer中的第一種運動轉移方法,通過混合分數引導(MSG),這是一個在擴散模型中進行運動轉移的理論基礎框架。我們的主要理論貢獻在於重新制定條件分數,將運動分數和內容分數在擴散模型中進行分解。通過將運動轉移定義為潛在能量的混合,MSG自然地保留了場景組成,並實現了創造性的場景轉換,同時保持了轉移的運動模式的完整性。這種新穎的抽樣直接在預先訓練的視頻擴散模型上運行,無需額外的訓練或微調。通過大量實驗,MSG展示了成功處理各種情景的能力,包括單個物體、多個物體和物體間的運動轉移,以及複雜的攝像機運動轉移。此外,我們還介紹了MotionBench,這是第一個運動轉移數據集,包括200個源視頻和1000個轉移動作,涵蓋單個/多個物體的轉移和複雜的攝像機運動。
隨著像 Copernicus 這樣的大型計畫檔案中地球觀測數據量不斷增加,對於有效率的底層原始數據向量表示的需求日益增長。從預先訓練的深度神經網絡中提取特徵表示的方法是一種強大的方法,可以提供輸入數據的語義抽象。然而,對於包含地理空間數據的影像檔案,這種方法尚未被確定。本研究提出了對現有社區項目 Major TOM 的擴展,該項目專注於為地球觀測提供和標準化開放且免費的 AI-ready 數據集。此外,隨著本手稿的發表,釋出了四個全球和密集的嵌入數據集,這是地球表面範圍最廣泛的全球開放地理空間視覺嵌入數據集,並且是免費提供的。
在機器人視覺運動策略學習中,擴散式模型相較於傳統的自回歸模型,在提高動作軌跡生成準確性方面取得了顯著成功。然而,由於多個去噪步驟和複雜約束的限制,它們存在效率問題。本文介紹了粗到細自回歸策略(CARP),這是一種重新定義自回歸動作生成過程為粗到細、下一級方法的創新範式,用於視覺運動策略學習。CARP將動作生成分解為兩個階段:首先,一個動作自編碼器學習整個動作序列的多尺度表示;然後,一個類似GPT風格的變壓器通過粗到細的自回歸過程對序列預測進行細化。這種直觀且直觀的方法產生高度準確且平滑的動作,與擴散式策略的表現相匹敵甚至超越,同時保持了與自回歸策略相當的效率。我們在各種場景下進行了廣泛評估,包括基於狀態和基於圖像的模擬基準測試中的單任務和多任務情況,以及現實任務。CARP實現了具有競爭力的成功率,最高提高了10%,並且與最先進的策略相比,推理速度提高了10倍,為機器人任務中的動作生成建立了高性能、高效和靈活的範式。
我們提出了一種新穎的外觀模型,同時實現了明確的高質量3D表面網格恢復和逼真的從稀疏視角樣本合成新視圖。我們的關鍵思想是將底層場景幾何形狀模型化為一個圖表的集合,我們使用2D高斯surfel(MAtCha高斯)來渲染它。MAtCha從現成的單眼深度估算器中提取高頻場景表面細節,並通過高斯surfel渲染進行精煉。高斯surfel會動態附加到圖表上,滿足神經體積渲染的逼真性和網格模型的清晰幾何形狀,即在單一模型中實現了兩個看似矛盾的目標。MAtCha的核心是一種新穎的神經變形模型和一種結構損失,保留了從學習的單眼深度中提取的細微表面細節,同時解決了它們的基本尺度模糊問題。廣泛的實驗驗證結果表明,MAtCha在表面重建和逼真方面具有與頂尖競爭對手相當的最新水準,但輸入視圖數量和計算時間大幅減少。我們相信MAtCha將成為視覺、圖形和機器人領域中任何需要明確幾何形狀和逼真外觀的應用的基礎工具。我們的項目頁面如下:https://anttwo.github.io/matcha/
我們提出了一種利用LLM進行改寫嵌入的不可察覺的多比特文本水印。我們微調了一對LLM改寫器,這些改寫器被設計成行為不同,以便訓練過的解碼器可以識別在文本語義中反映出的改寫差異。為了嵌入我們的多比特水印,我們交替使用兩個改寫器在句子級別對預定義的二進制代碼進行編碼。然後,我們使用文本分類器作為解碼器來解碼水印的每一位。通過大量實驗,我們展示了我們的水印可以在保留原始句子的語義信息的同時,使用小型(1.1B)文本改寫器實現超過99.99%的檢測AUC。更重要的是,我們的流程在詞語替換和句子改寫干擾下具有韌性,並且對分布之外的數據具有良好的泛化能力。我們還展示了基於LLM的評估方法的水印隱匿性。我們將代碼開源:https://github.com/xiaojunxu/multi-bit-text-watermark。
模型合併在結合專家模型方面表現出很大的潛力,但在合併訓練於多項任務的「通才」模型時,合併的好處尚不清楚。我們探索在大型(約100B模型)的情況下進行合併,通過回收展現在不同任務之間權衡的檢查點。這些檢查點通常在開發前沿模型的過程中創建,而許多次優的檢查點通常會被丟棄。鑒於從不同訓練運行(例如不同階段、目標、超參數和數據混合)獲得的模型檢查點池,這些檢查點自然地展示了在不同語言能力之間的權衡(例如遵循指示 vs. 代碼生成),我們探討是否合併可以將這些次優模型回收為帕累托最優模型。我們的優化算法調整每個檢查點在線性組合中的權重,從而產生一個優於單個模型和基於合併的基準線的帕累托最優模型。進一步的分析顯示,良好的合併往往包括幾乎所有具有非零權重的檢查點,這表明即使最初看似不好的檢查點也可以對最終良好的合併產生貢獻。
我們提出了 Turbo3D,一個超快的文本轉3D系統,能夠在不到一秒的時間內生成高質量的高斯樣本資產。Turbo3D採用了快速的4步驟、4視圖擴散生成器和一個高效的前饋高斯重建器,兩者均在潛在空間中運作。這個4步驟、4視圖生成器是通過一種新穎的雙教師方法提煉出來的學生模型,該方法鼓勵學生從多視圖教師那裡學習視圖一致性,從單視圖教師那裡學習照片逼真感。通過將高斯重建器的輸入從像素空間轉移到潛在空間,我們消除了額外的圖像解碼時間,並將變壓器序列長度減半,實現了最大效率。我們的方法展示了優越的3D生成結果,同時運行時間僅為以往基準方法的一小部分。