每日精選AI研究論文及翻譯
在本報告中,我們介紹了 Qwen2.5,這是一系列全面的大型語言模型(LLMs),旨在滿足各種需求。與以往版本相比,Qwen 2.5 在預訓練和後訓練階段均有顯著改進。在預訓練方面,我們將高質量的預訓練數據集從之前的 7 兆令牌擴展到 18 兆令牌。這為常識、專業知識和推理能力提供了堅實基礎。在後訓練方面,我們實施了複雜的監督微調,擁有超過 100 萬個樣本,以及多階段強化學習。後訓練技術增強了人類偏好,顯著改善了長文本生成、結構數據分析和指令遵循。為了有效應對各種不同的使用情況,我們提供了豐富尺寸的 Qwen2.5 LLM 系列。開放式權重產品包括基礎模型和指令調整模型,還提供了量子化版本。此外,對於托管解決方案,專有模型目前包括兩種專家混合(MoE)變體:Qwen2.5-Turbo 和 Qwen2.5-Plus,均可從阿里雲模型工作室獲得。Qwen2.5 在評估語言理解、推理、數學、編碼、人類偏好對齊等各種基準測試中展示了頂尖性能。具體而言,開放式權重旗艦型號 Qwen2.5-72B-Instruct 優於許多開放和專有模型,並展示了與最先進的開放式權重模型 Llama-3-405B-Instruct 競爭性性能,後者大約大 5 倍。Qwen2.5-Turbo 和 Qwen2.5-Plus 在性價比上表現優異,同時與 GPT-4o-mini 和 GPT-4o 分別競爭。此外,作為基礎,Qwen2.5 模型在訓練專門模型(如 Qwen2.5-Math、Qwen2.5-Coder、QwQ 和多模型)方面發揮了重要作用。
多步驟多模態推理任務對於多模態大型語言模型(MLLMs)構成重大挑戰,並且尋找有效方法以增強它們在這種情況下的表現仍然是一個未解決的問題。在本文中,我們提出了AR-MCTS,這是一個通用框架,旨在通過主動檢索(AR)和蒙特卡羅樹搜索(MCTS)逐步提升MLLMs的推理能力。我們的方法始於開發一個統一的檢索模塊,從混合模態檢索語料庫中檢索解決複雜推理問題所需的關鍵支持見解。為了彌補自動多模態推理驗證的差距,我們採用了結合主動檢索機制的MCTS算法,這使得可以自動生成逐步註釋。這種策略動態地為每個推理步驟檢索關鍵見解,超越了傳統的束搜索採樣,以改進推理空間的多樣性和可靠性。此外,我們引入了一個逐步對齊以支持自動驗證多模態推理任務的過程獎勵模型。在三個複雜多模態推理基準測試中的實驗結果證實了AR-MCTS框架在增強各種多模態模型表現方面的有效性。進一步的分析表明,AR-MCTS可以優化採樣多樣性和準確性,產生可靠的多模態推理。
儘管對多模式檢索的需求迅速增長,但這一領域的進展仍受到訓練數據的嚴重限制。在本文中,我們介紹了 MegaPairs,一種新型的數據合成方法,利用視覺語言模型(VLMs)和開放域圖像,以及通過此方法生成的大規模合成數據集。我們的實證分析顯示,MegaPairs 生成了高質量的數據,使多模式檢索器能夠明顯優於在現有數據集中訓練的基準模型,後者使用了 70 倍更多的數據。此外,由於 MegaPairs 僅依賴於通用圖像語料庫和開源 VLMs,因此可以輕鬆擴展,實現檢索性能的持續改進。在這個階段,我們生成了超過 2600 萬個訓練實例,並使用這些數據訓練了幾個不同大小的模型。這些新模型在 4 個流行的組合圖像檢索(CIR)基準測試中實現了最先進的零樣本性能,並在 MMEB 提供的 36 個數據集中取得了最高的整體性能。它們還展示了在進一步的下游微調中明顯的性能改進。我們生成的數據集、訓練有素的模型和數據合成流程將公開提供,以促進該領域未來的發展。
合成數據中的模型崩潰表明在自行生成的數據上進行迭代訓練將導致性能逐漸下降。隨著 AI 模型的激增,合成數據將從根本上重塑 Web 數據生態系統。未來的 GPT-{n} 模型將不可避免地在合成和人工生成的數據混合上進行訓練。在本文中,我們聚焦於兩個問題:合成數據對語言模型訓練的影響是什麼,以及如何在不出現模型崩潰的情況下合成數據?我們首先在不同比例的合成數據上對語言模型進行預訓練,揭示了合成數據比例與模型性能之間的負相關。我們進一步對合成數據進行統計分析,揭示了分布變化現象和 n-gram 特徵的過度集中。受以上發現的啟發,我們提出對人工生成的數據進行標記編輯,以獲得半合成數據。作為概念證明,我們在理論上證明了標記級編輯可以防止模型崩潰,因為測試誤差受到有限上限的限制。我們對從頭開始的預訓練、持續預訓練和監督微調進行了大量實驗。結果驗證了我們的理論證明,即標記級編輯提高了數據質量並增強了模型性能。
本文介紹了LongBench v2,這是一個旨在評估LLM處理需要深度理解和推理的長篇文本問題的基準測試。LongBench v2 包含503個具有挑戰性的多選題,涵蓋範圍從8k到2M字,跨越六個主要任務類別:單篇文件問答、多篇文件問答、長篇文本學習、長對話歷史理解、程式碼庫理解和長結構化數據理解。為確保廣度和實用性,我們從近100位具有多樣專業背景的高度受過教育的個人收集數據。我們採用自動化和手動審查流程來保持高質量和難度,結果顯示在15分鐘的時間限制下,專家僅達到53.7%的準確率。我們的評估顯示,當直接回答問題時,表現最佳的模型僅達到50.1%的準確率。相比之下,包括更長推理的o1-preview模型達到57.7%,超越人類基準4%。這些結果突顯了增強推理能力和擴展推理時間計算的重要性,以應對LongBench v2中的長篇文本挑戰。該項目可在https://longbench2.github.io 上找到。
擴散模型及其泛化形式流匹配對於媒體生成領域產生了顯著影響。在這裡,傳統方法是從簡單的高斯噪聲源分佈學習到目標媒體分佈的複雜映射。對於跨模態任務,如文本到圖像生成,該映射從噪聲到圖像的學習同時在模型中包含一種條件機制。流匹配至今一個關鍵但相對未被探索的特點是,與擴散模型不同,它們並不受限於源分佈為噪聲。因此,在本文中,我們提出了一種範式轉移,並提出了一個問題,即我們是否可以訓練流匹配模型來直接從一種模態的分佈學習到另一種模態的分佈,從而消除了對於噪聲分佈和條件機制的需求。我們提出了一個通用且簡單的框架,CrossFlow,用於跨模態流匹配。我們展示了應用變分編碼器到輸入數據的重要性,並介紹了一種啟用無分類器指導的方法。令人驚訝的是,在文本到圖像的任務中,具有普通變壓器但沒有交叉關注的CrossFlow 稍微優於標準流匹配,我們展示了它隨著訓練步驟和模型大小的增加而更好地擴展,同時還允許有趣的潛在算術,這導致輸出空間中具有語義意義的編輯。為了展示我們方法的通用性,我們還展示了 CrossFlow 在各種跨模態/內模態映射任務中與當前最先進技術相當或更好,例如圖像標題生成、深度估計和圖像超分辨率。我們希望本文有助於加速跨模態媒體生成領域的進展。
基於拖曳的互動直覺性,已促使其在影像到影片合成中控制物體軌跡的應用不斷增長。然而,現有在二維空間進行拖曳的方法通常在處理平面外移動時會面臨歧義。在本研究中,我們通過引入一個新維度,即深度維度,來擴充互動,使用戶能夠為軌跡上的每一點分配相對深度。這樣,我們的新互動範式不僅繼承了二維拖曳的便利性,還促進了在三維空間中的軌跡控制,擴大了創造力的範疇。我們提出了一種開創性的方法,將物體遮罩抽象為幾個集群點,用這些點以及深度信息和實例信息最終作為控制信號輸入到視頻擴散模型中,以實現影像到影片合成中的三維軌跡控制。大量實驗驗證了我們的方法 LeviTor 的有效性,在從靜態圖像生成逼真照片的影片時精確操縱物體移動。項目頁面:https://ppetrichor.github.io/levitor.github.io/
作為常見的圖像編輯操作,圖像合成涉及將前景物件整合到背景場景中。在本文中,我們將Affordance概念的應用從以人為中心的圖像合成任務擴展到更一般的物件-場景合成框架,解決前景物件和背景場景之間的複雜互動。遵循Affordance原則,我們定義了考慮Affordance的物件插入任務,旨在通過各種位置提示無縫地將任何物件插入任何場景中。為了應對有限的數據問題並納入這一任務,我們構建了SAM-FB數據集,其中包含超過3,000個物件類別的3百萬多個示例。此外,我們提出了Mask-Aware Dual Diffusion(MADD)模型,該模型利用雙流架構同時對RGB圖像和插入遮罩進行降噪。通過在擴散過程中明確地對插入遮罩進行建模,MADD有效地促進了Affordance概念。廣泛的實驗結果表明,我們的方法優於最先進的方法,在野外圖像上表現出強大的泛化性能。請參考我們在 https://github.com/KaKituken/affordance-aware-any 上的代碼。
本文介紹了AceMath,一套優秀解決複雜數學問題的前沿數學模型,以及高效的獎勵模型,能夠評估生成的解決方案並可靠地識別正確解。為了開發針對指導的數學模型,我們提出了一個監督微調(SFT)過程,首先在一般領域取得競爭性表現,然後使用精心策劃的提示和合成生成的回應對數學領域進行有針對性的微調。最終產生的模型AceMath-72B-Instruct在性能上遠遠優於Qwen2.5-Math-72B-Instruct、GPT-4o和Claude-3.5 Sonnet。為了開發數學專用的獎勵模型,我們首先構建了AceMath-RewardBench,這是一個全面而堅固的基準,用於評估不同問題和難度水準下的數學獎勵模型。之後,我們提出了一種系統方法來構建我們的數學獎勵模型。最終產生的模型AceMath-72B-RM在性能上一直優於最先進的獎勵模型。此外,當將AceMath-72B-Instruct與AceMath-72B-RM結合時,我們在數學推理基準測試中實現了最高的平均rm@8分數。我們將在以下網址釋出模型權重、訓練數據和評估基準:https://research.nvidia.com/labs/adlr/acemath
程序化內容生成(PCG)在創建高質量的3D內容方面非常強大,但控制其以產生所需形狀卻是困難的,通常需要進行大量參數調整。逆向程序化內容生成的目標是在輸入條件下自動找到最佳參數。然而,現有的基於採樣和神經網絡的方法仍然存在許多樣本迭代或受限的可控性問題。在這項工作中,我們提出了DI-PCG,一種從一般圖像條件進行逆向PCG的新穎且高效的方法。其核心是一個輕量級擴散轉換器模型,其中PCG參數直接被視為去噪目標,觀察到的圖像則作為控制參數生成的條件。DI-PCG高效且有效。僅需760萬個網絡參數和30個GPU小時進行訓練,就展示了在準確恢復參數方面的卓越性能,並且對野外圖像具有良好的泛化能力。定量和定性實驗結果驗證了DI-PCG在逆向PCG和圖像到3D生成任務中的有效性。DI-PCG為高效的逆向PCG提供了一種有前途的方法,並代表了朝著模擬如何使用參數模型構建3D資產的3D生成路徑的有價值的探索步驟。
訓練大型多模式模型(LMMs)依賴描述性圖像標題,以連接圖像和語言。現有方法要麼從LMM模型中提煉標題,要麼從互聯網圖像或人工構建標題。我們提出利用從注釋圖像中訓練的現成視覺專家,這些專家最初並非為圖像標題而訓練,以增強圖像標題。 我們的方法名為DCE,探索物體的低級和細粒度屬性(例如深度、情感和細粒度類別)以及物體關係(例如相對位置和人物-物體互動(HOI)),並將這些屬性結合到描述性標題中。實驗表明,這些視覺專家能夠提高視覺理解任務的性能,以及從更準確的視覺理解中受益的推理。我們將釋出源代碼和流程,以便其他視覺專家可以輕鬆結合到流程中。DCE流程的完整源代碼和數據集將在https://github.com/syp2ysy/DCE 提供。
我們提出了一種用於基於指示的圖像編輯的非監督模型,它在訓練過程中消除了對地面真實編輯圖像的需求。現有的監督方法依賴包含輸入圖像、編輯圖像和編輯指示三元組的數據集。這些三元組是由現有的編輯方法或人工標註生成的,這會引入偏見並限制它們的泛化能力。我們的方法通過引入一種名為循環編輯一致性(CEC)的新編輯機制來應對這些挑戰,該機制在一個訓練步驟中應用正向和反向編輯,並在圖像和注意力空間中強制實現一致性。這使我們能夠繞過對地面真實編輯圖像的需求,並首次在包含真實圖像-標題對或圖像-標題-編輯三元組的數據集上進行訓練。我們通過實驗證明,我們的非監督技術在更廣泛範圍的編輯中表現更好,具有高度忠實度和精確度。通過消除對三元組預先存在數據集的需求,減少與監督方法相關的偏見,並提出CEC,我們的工作代表了在解鎖基於指示的圖像編輯的擴展方面的重大進步。
我們提出了AV-Link,這是一個統一的框架,用於視訊轉音訊和音訊轉視訊的生成,它利用凍結的視訊和音訊擴散模型的啟動,進行時間對齊的跨模態條件。我們框架的關鍵是一個融合塊,通過時間對齊的自注意操作,實現了我們的骨幹視訊和音訊擴散模型之間的雙向信息交換。與先前使用為其他任務預訓練的特徵提取器作為條件信號的工作不同,AV-Link 可以直接利用在單一框架中獲得的互補模態的特徵,即使用視訊特徵生成音訊,或使用音訊特徵生成視訊。我們廣泛評估了我們的設計選擇,並展示了我們的方法實現同步和高質量的音視頻內容的能力,展示了其在沉浸式媒體生成應用中的潛力。項目頁面:snap-research.github.io/AVLink/
本文提出了基於文本的開放式分子生成基準(TOMG-Bench),這是第一個用於評估大型語言模型(LLMs)在開放領域分子生成能力的基準。TOMG-Bench 包含三個主要任務的數據集:分子編輯(MolEdit)、分子優化(MolOpt)和定制分子生成(MolCustom)。每個任務進一步包含三個子任務,每個子任務包含 5,000 個測試樣本。鑒於開放式分子生成的固有複雜性,我們還開發了一個自動評估系統,有助於測量生成分子的質量和準確性。我們對 25 個 LLMs 進行了全面的基準測試,揭示了文本引導的分子探索中目前的限制和潛在改進領域。此外,借助 OpenMolIns 的幫助,這是一個專門用於解決 TOMG-Bench 提出挑戰的指令調整數據集,Llama3.1-8B 能夠優於所有開源通用 LLMs,甚至在 TOMG-Bench 上超越 GPT-3.5-turbo 46.5%。我們的代碼和數據集可通過 https://github.com/phenixace/TOMG-Bench 獲取。
最近的研究探索了擴散模型(DMs)在一致物件編輯方面的潛力,旨在修改物件的位置、大小、組成等,同時保持物件和背景的一致性,而不改變其紋理和屬性。目前推理時方法通常依賴於 DDIM 逆向,這從本質上損害了效率和編輯圖像的可達一致性。最近的方法還利用能量引導,通過迭代更新預測的噪聲,可能將潛在變化遠離原始圖像,導致失真。在本文中,我們提出了 PixelMan,一種無需逆向和訓練的方法,通過像素操作和生成實現一致的物件編輯,在這裡我們直接在像素空間中在目標位置創建源物件的副本,並引入一種高效的採樣方法,逐步將操作的物件調和到目標位置並修復其原始位置,同時通過將要生成的編輯圖像錨定到像素操作圖像以及在推理過程中引入各種保持一致性的優化技術來確保圖像的一致性。基於基準數據集的實驗評估以及廣泛的視覺比較表明,在僅 16 步推理中,PixelMan 在多個一致物件編輯任務上優於一系列最先進的基於訓練和無需訓練的方法(通常需要 50 步)。
本文介紹了DateLogicQA,一個包含190個問題,涵蓋多樣的日期格式、時間背景和推理類型的基準。我們提出了語義完整性度量標準,用於評估標記化質量並分析兩種偏見:影響嵌入的表示層偏見和影響推理輸出的邏輯層偏見。我們的研究結果全面評估了LLMs在時間推理方面的能力和局限性,突出處理時間數據準確性的關鍵挑戰。我們的工作GitHub存儲庫可在以下網址找到:https://github.com/gagan3012/EAIS-Temporal-Bias
生成逼真的人類影片仍然是一項具有挑戰性的任務,目前最有效的方法通常依賴於人類運動序列作為控制信號。現有方法通常使用從其他影片中提取的現有運動,這限制了應用於特定運動類型和全局場景匹配。我們提出了一種新方法 Move-in-2D,用於生成以場景圖像為條件的人類運動序列,從而產生適應不同場景的多樣運動。我們的方法利用擴散模型,接受場景圖像和文本提示作為輸入,生成適合該場景的運動序列。為了訓練這個模型,我們收集了一個大規模的單人活動視頻數據集,將每個視頻與相應的人體運動進行標註,作為目標輸出。實驗表明,我們的方法有效地預測了與場景圖像對齊的人體運動,並且我們展示了生成的運動序列在視頻合成任務中改善了人體運動質量。