每日精選AI研究論文及翻譯
強化學習(RL)在數學上以馬可夫決策過程(MDP)形式化決策制定。借助MDP,研究人員在各個領域取得了顯著突破,包括遊戲、機器人和語言模型。本文探索一種新可能性,即自然語言強化學習(NLRL),通過將傳統MDP擴展到基於自然語言的表示空間。具體而言,NLRL創新地將RL原則重新定義為其語言對應物,包括任務目標、策略、價值函數、貝爾曼方程和策略迭代。憑藉大型語言模型(LLMs)的最新進展,NLRL可以通過純提示或基於梯度的訓練實現RL式的策略和價值改進。在迷宮、突破和井字遊戲上的實驗證明了NLRL框架在各種用例中的有效性、效率和可解釋性。我們的代碼將在https://github.com/waterhorse1/Natural-language-RL 上發布。
現有的開源多模式大型語言模型(MLLMs)通常遵循包括預訓練和監督微調的訓練過程。然而,這些模型存在分佈偏移問題,限制了它們的多模式推理能力,尤其是在思維鏈(CoT)表現方面。為了解決這個問題,我們引入了一個偏好優化(PO)過程,以增強MLLMs的多模式推理能力。具體來說,(1)在數據方面,我們設計了一個自動化的偏好數據構建流程,創建了MMPR,一個高質量、大規模的多模式推理偏好數據集;以及(2)在模型方面,我們探索將PO與MLLMs集成,開發了一種簡單而有效的方法,稱為混合偏好優化(MPO),可以提升多模式CoT表現。我們的方法在多個基準測試中展示了改進的性能,特別是在多模式推理任務中。值得注意的是,我們的模型InternVL2-8B-MPO在MathVista上實現了67.0的準確率,比InternVL2-8B高出8.7個百分點,並實現了與10倍更大的InternVL2-76B相當的性能。我們希望這項研究能激發MLLMs的進一步發展。代碼、數據和模型將被公開發布。
目前,OpenAI o1 引發了對大型推理模型(LRM)研究的高度興趣。在這股動力的推動下,Marco-o1 不僅專注於具有標準答案的學科,如數學、物理和編碼(適合強化學習(RL)),還更加強調開放式解決方案。我們的目標是回答以下問題:"o1 模型能否有效地應用於缺乏明確標準且難以量化獎勵的更廣泛領域?" Marco-o1 採用了Chain-of-Thought(CoT)微調、蒙特卡羅樹搜索(MCTS)、反思機制和創新的推理策略,這些策略經過優化,適用於複雜的現實世界問題解決任務。
我們提出了一種新穎的大規模視覺編碼器預訓練方法。基於最近在視覺模型自回歸預訓練方面的進展,我們將這一框架擴展到多模態設置,即圖像和文本。在本文中,我們介紹了AIMV2,這是一個通用視覺編碼器家族,其特點是簡單的預訓練過程、可擴展性以及在各種下游任務中顯著的性能。這是通過將視覺編碼器與多模態解碼器配對來實現的,該解碼器自回歸生成原始圖像補丁和文本標記。我們的編碼器不僅在多模態評估中表現出色,而且在視覺基準測試中(如定位、定位和分類)也表現出色。值得注意的是,我們的AIMV2-3B編碼器在凍結主幹的情況下在ImageNet-1k上實現了89.5%的準確率。此外,AIMV2在各種不同設置下始終優於最先進的對比模型(例如CLIP、SigLIP)在多模態圖像理解方面的表現。
我們提出了 Hymba,這是一系列小型語言模型,具有混合式平行架構,將 Transformer 的注意力機制與狀態空間模型(SSMs)相結合,以提高效率。注意力頭提供高分辨率的回憶,而 SSM 頭使得上下文摘要更有效率。此外,我們引入了可學習的元記號,附加在提示語前,儲存關鍵信息,減輕了與注意力機制相關的「被迫參與」負擔。通過整合跨層鍵值(KV)共享和部分滑動窗口注意力,進一步優化了此模型,使得快取大小更為緊湊。在開發過程中,我們進行了一項受控研究,比較了在相同設置下的各種架構,觀察到我們提出的架構具有顯著優勢。值得注意的是,Hymba 在小型語言模型方面取得了最新成果:我們的 Hymba-1.5B-Base 模型在性能上超越了所有小於 2B 的公共模型,甚至優於 Llama-3.2-3B,平均準確度提高了 1.32%,快取大小減少了 11.67 倍,吞吐量提高了 3.49 倍。
科學進步取決於研究人員綜合不斷增長的文獻。大型語言模型(LMs)能幫助科學家完成這項任務嗎?我們介紹了OpenScholar,這是一種專門的檢索增強型LM,通過識別來自4500萬篇開放訪問論文的相關段落並綜合支持引用的回答來回應科學查詢。為了評估OpenScholar,我們開發了ScholarQABench,這是第一個大規模多領域文獻搜索基準,包括2967個專家撰寫的查詢和208個長篇答案,涵蓋計算機科學、物理學、神經科學和生物醫學。在ScholarQABench上,OpenScholar-8B在正確性方面優於GPT-4o 5%,優於PaperQA2 7%,儘管OpenScholar是一個較小的開放模型。儘管GPT-4o在78%至90%的情況下會產生引文幻覺,但OpenScholar的引文準確性與人類專家相當。OpenScholar的數據存儲庫、檢索器和自我反饋推理循環還改進了現成的LMs:例如,OpenScholar-GPT4o將GPT-4o的正確性提高了12%。在人類評估中,專家更喜歡OpenScholar-8B和OpenScholar-GPT4o的回應,分別比專家撰寫的回應多51%和70%,而GPT4o則為32%。我們開源了所有代碼、模型、數據存儲庫、數據以及公開演示。
大型語言模型(LLMs)通過更多推理,從思維鏈提示進化為像OpenAI o1這樣的產品級解決方案,展示出增強的能力和可靠性。儘管有各種努力來改進LLM的推理能力,但在視覺語言任務中,高質量的長鏈推理數據和優化的訓練流程仍未得到充分探索。在本文中,我們提出了Insight-V,這是一項早期工作,旨在1)可擴展地生成複雜多模式任務的長且穩健的推理數據,以及2)一個有效的訓練流程,以增強多模式大型語言模型(MLLMs)的推理能力。具體來說,為了在沒有人工干預的情況下創建長且結構化的推理數據,我們設計了一個兩步流程,採用漸進策略生成足夠長且多樣化的推理路徑,並使用多粒度評估方法來確保數據質量。我們觀察到,直接監督MLLMs進行這種長且複雜的推理數據將無法產生理想的推理能力。為應對這個問題,我們設計了一個多代理系統,包括一個專門執行長鏈推理的推理代理和一個訓練過的總結代理,用於評估和總結推理結果。我們進一步融入了一個迭代的DPO算法,以增強推理代理的生成穩定性和質量。基於流行的LLaVA-NeXT模型和我們更強大的基礎MLLM,我們展示了在需要視覺推理的具有挑戰性的多模式基準測試中顯著的性能提升。受益於我們的多代理系統,Insight-V還可以輕鬆地在以感知為重點的多模式任務中保持或提高性能。
廣泛認為,Transformer 模型的表現與其參數數量和計算複雜度呈指數關係。雖然像是專家混合(MoE)這樣的方法將參數數量與計算複雜度解耦,但在推論方面仍面臨高內存訪問成本的挑戰。本研究引入了 UltraMem,將大規模、超稀疏記憶層融入以應對這些限制。我們的方法顯著降低了推論延遲,同時保持模型表現。我們還研究了這種新架構的擴展規律,證明它不僅具有良好的擴展特性,而且優於傳統模型。在我們的實驗中,我們訓練了具有多達 2000 萬個記憶槽的網絡。結果顯示,我們的方法在給定的計算預算內實現了最先進的推論速度和模型表現。
擴散模型已經在內容合成和編輯領域引起了革命。最近的模型已經將傳統的 UNet 結構替換為擴散 Transformer(DiT),並採用流匹配來改善訓練和採樣。然而,它們展現出有限的生成多樣性。在這項工作中,我們利用這一限制通過選擇性注入注意力特徵來執行一致的圖像編輯。主要挑戰在於,與基於 UNet 的模型不同,DiT 缺乏粗到細的合成結構,使得在哪些層進行注入變得不明確。因此,我們提出了一種自動方法來識別 DiT 中的“關鍵層”,對圖像形成至關重要,並展示這些層如何通過相同機制促進一系列受控穩定的編輯,從非剛性修改到對象添加。接下來,為了實現真實圖像編輯,我們引入了一種改進的圖像反演方法用於流模型。最後,我們通過定性和定量比較以及用戶研究來評估我們的方法,並展示其在多個應用中的有效性。項目頁面位於 https://omriavrahami.com/stable-flow。
本文介紹了由 IDEA 研究團隊開發的 DINO-X,這是一個統一的以物件為中心的視覺模型,具有迄今為止最佳的開放世界物件檢測性能。DINO-X 使用與 Grounding DINO 1.5 相同的基於 Transformer 的編碼器-解碼器架構,以追求物件級表示,用於開放世界物件理解。為了使長尾物件檢測變得容易,DINO-X 擴展了其輸入選項,以支持文本提示、視覺提示和自定義提示。通過這些靈活的提示選項,我們開發了一個通用的物件提示,以支持無提示的開放世界檢測,從而實現在圖像中檢測任何物件而無需用戶提供任何提示。為了增強模型的核心基礎能力,我們構建了一個規模龐大的數據集,包含超過一億個高質量的基礎樣本,稱為 Grounding-100M,以提升模型的開放詞彙檢測性能。在這樣一個大規模基礎數據集上進行預訓練,導致了基礎物件級表示,使 DINO-X 能夠整合多個感知頭部,同時支持多個物件感知和理解任務,包括檢測、分割、姿勢估計、物件標題、基於物件的問答等。實驗結果顯示了 DINO-X 的優越性能。具體而言,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零樣本物件檢測基準上分別達到了 56.0 AP、59.8 AP 和 52.4 AP。值得注意的是,它在 LVIS-minival 和 LVIS-val 基準的稀有類別上分別取得了 63.3 AP 和 56.5 AP 的成績,將先前的 SOTA 性能提高了 5.8 AP。這樣的結果凸顯了其顯著改進的長尾物件識別能力。
大型語言模型中的幻覺是一個普遍問題,然而模型是否會產生幻覺的機制尚不明確,這限制了我們解決這個問題的能力。使用稀疏自編碼器作為一種可解釋性工具,我們發現這些機制的一個關鍵部分是實體識別,模型會檢測是否能回憶有關某個實體的事實。稀疏自編碼器揭示了表示空間中具有意義的方向,這些方向可以檢測模型是否識別一個實體,例如檢測它是否不了解某位運動員或電影。這表明模型可能具有自我認知:關於自身能力的內部表示。這些方向具有因果關係:能夠引導模型拒絕回答有關已知實體的問題,或在否則會拒絕時幻覺未知實體的屬性。我們展示了,儘管稀疏自編碼器是在基礎模型上進行訓練的,這些方向對於聊天模型的拒絕行為具有因果影響,這表明聊天微調已重新運用了這個現有機制。此外,我們對模型中這些方向的機械角色進行了初步探索,發現它們破壞了通常將實體屬性移至最終標記的下游注意力。
擴散模型的快速進展極大地改善了視頻合成,尤其是在可控視頻生成方面,這對於自動駕駛等應用至關重要。然而,現有方法受到可擴展性和控制條件整合方式的限制,無法滿足自動駕駛應用對高分辨率和長視頻的需求。本文介紹了一種基於 DiT 結構的新方法 MagicDriveDiT,並應對這些挑戰。我們的方法通過流匹配增強了可擴展性,並採用漸進式訓練策略來應對複雜情境。通過結合時空條件編碼,MagicDriveDiT 實現了對時空潛在特徵的精確控制。全面的實驗表明,它在生成逼真的街景視頻方面表現優異,具有更高的分辨率和更多幀數。MagicDriveDiT 顯著提高了視頻生成質量和時空控制,擴展了其在自動駕駛各項任務中的潛在應用。
現有的前饋式影像至3D方法主要依賴於2D多視圖擴散模型,無法保證3D一致性。這些方法在改變提示視角時很容易崩潰,主要處理以物體為中心的提示影像。本文提出了一種新型的單階段3D擴散模型,稱為DiffusionGS,用於從單一視角生成物體和場景。DiffusionGS直接在每個時間步輸出3D高斯點雲,以強制視角一致性,並允許模型在任何方向的提示視圖下穩健生成,超越以物體為中心的輸入。此外,為了提高DiffusionGS的能力和泛化能力,我們通過開發場景-物體混合訓練策略來擴大3D訓練數據。實驗表明,我們的方法在生成質量上表現更好(PSNR高2.20 dB,FID低23.25),速度也快了5倍以上(在A100 GPU上約6秒),優於當前最先進的方法。用戶研究和文本至3D應用還顯示了我們方法的實際價值。我們的項目頁面位於https://caiyuanhao1998.github.io/project/DiffusionGS/,展示了視頻和互動生成結果。
由於訓練數據有限,大型語言模型(LLMs)在低資源語言上表現不佳。我們提出了一種方法,可以有效地從整個 Common Crawl 語料庫中收集低資源語言的文本數據。我們的方法 UnifiedCrawl 使用最少的計算資源來過濾和提取 Common Crawl,從而產生比以前可用來源更大的單語言數據集。我們展示了利用這些數據通過高效的適配器方法(QLoRA)對多語言 LLMS 進行微調,顯著提高低資源語言的性能,同時最小化 VRAM 使用量。我們的實驗顯示,在語言建模困惑度方面取得了很大的改善,並提高了少量提示分數。我們的工作和釋出的源代碼提供了一種負擔得起的方法,可以使用消費者硬件改進低資源語言的 LLMs。我們的源代碼可以在以下網址找到:https://github.com/bethelmelesse/unifiedcrawl。
最近在大型語言模型領域的進展,特別是通過Chain of Thought (CoT)方法,已經展示出在解決複雜問題方面的顯著改進。然而,現有模型要麼為了用戶偏好而犧牲詳細推理,要麼需要大量昂貴的訓練數據來學習複雜推理能力,這限制了它們在解決複雜任務方面的潛力。為了彌合這一差距,我們遵循了測試時間擴展的概念,提出了一種簡單的方法,鼓勵模型採用更耐心的推理風格,而無需引入新知識或技能。通過採用偏好優化方法,我們生成詳細的推理過程作為正例,簡單答案作為負例,從而訓練模型偏好在其回答中的徹底性。我們的結果表明,在僅在輕量級數據集上進行訓練的情況下,在GSM8k上的性能提高了高達6.7%。