每日精選AI研究論文及翻譯
自我校正是大型語言模型(LLMs)中一個非常理想的能力,然而在現代LLMs中,它一直被發現在很大程度上是無效的。現有的自我校正訓練方法要麼需要多個模型,要麼依賴更強大的模型或其他形式的監督。為此,我們開發了一種多輪在線強化學習(RL)方法SCoRe,通過完全使用自生成的數據,顯著提高了LLM的自我校正能力。為構建SCoRe,我們首先展示了在離線模型生成的校正軌跡上變體的監督微調(SFT)是不足以灌輸自我校正行為的。具體而言,我們觀察到通過SFT進行訓練要麼受到訓練數據與模型自身回應之間的分佈不匹配的困擾,要麼隱式地偏好於某種在測試時通常不起作用的校正行為模式。SCoRe通過在模型自身生成的校正軌跡分佈下進行訓練,並使用適當的正則化來引導學習過程,使其學習一種在測試時有效的自我校正策略,而不僅僅是對於給定提示擬合高獎勵回應。該正則化規定在基礎模型上運行第一階段的RL以生成較不容易崩潰的策略初始化,然後使用獎勵獎金來放大訓練期間的自我校正。當應用於Gemini 1.0 Pro和1.5 Flash模型時,我們發現SCoRe在MATH和HumanEval基準測試中分別將基礎模型的自我校正性能提高了15.6%和9.1%,達到了最先進的自我校正性能水平。
在大规模、高质量数据集上进行预训练对于增强大型语言模型(LLMs)的推理能力至关重要,尤其是在数学等专业领域。尽管人们认识到其重要性,多模态语言模型(MLLMs)领域目前缺乏专门为数学推理设计的全面开源预训练数据集。为填补这一空白,我们介绍了InfiMM-WebMath-40B,这是一个高质量的交错图像-文本文档数据集。它包括了2400万个网页、8500万个相关图像URL和400亿个文本标记,所有这些都是精心从CommonCrawl中提取和过滤而来。我们提供了对我们数据收集和处理流程的详细概述。为了展示InfiMM-WebMath-40B的稳健性,我们在纯文本和多模态设置下进行了评估。我们在纯文本基准测试中的评估表明,尽管仅利用了400亿个标记,我们的数据集显著提升了我们的13亿模型的性能,提供了与使用1200亿标记的DeepSeekMath-1.3B相当的结果。然而,引入我们的多模态数学预训练数据集后,我们的模型在MathVerse和We-Math等多模态数学基准测试中取得了新的开源模型最先进的成果。我们在https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B发布了我们的数据。
大型語言模型(LLMs)的出現為AI搜尋引擎,例如SearchGPT,開創了人類與互聯網互動的新範式。然而,大多數目前的AI搜尋引擎僅限於純文本設置,忽略了多模態用戶查詢和網站信息的文本-圖像交錯性質。近來,大型多模態模型(LMMs)取得了顯著進展。然而,它們是否能夠作為AI搜尋引擎運作仍未得到充分探討,使LMMs在多模態搜索中的潛力成為一個未解之謎。為此,我們首先設計了一個精心構建的流程,MMSearch-Engine,以賦予任何LMMs多模態搜索功能。在此基礎上,我們引入了MMSearch,一個全面評估LMMs多模態搜索性能的基準。這個精心挑選的數據集包含300個手動收集的實例,涵蓋14個子領域,並且與當前LMMs的訓練數據沒有重疊,確保只能在搜索中獲得正確答案。通過使用MMSearch-Engine,我們通過執行三個單獨任務(重新查詢、重新排名和總結)以及一個具有完整搜索過程的具有挑戰性的端到端任務來評估LMMs。我們對封閉源和開源LMMs進行了廣泛實驗。在所有測試模型中,具有MMSearch-Engine的GPT-4o取得了最佳結果,超越了商業產品Perplexity Pro,在端到端任務中展示了我們提出的流程的有效性。我們進一步進行錯誤分析,揭示當前LMMs仍然難以完全掌握多模態搜索任務,並進行消融研究,指出對AI搜尋引擎進行測試時計算規模化的潛力。我們希望MMSearch能夠提供獨特的見解,引導未來多模態AI搜尋引擎的發展。項目頁面:https://mmsearch.github.io
在程式碼生成中,從多個生成的解決方案中選擇最佳程式碼解決方案是一項重要任務,可以通過使用一些可靠的驗證器(例如,由開發人員編寫的測試用例)來實現。由於可靠的測試用例並非總是可用且在實踐中構建成本高昂,研究人員提出自動生成測試用例來評估程式碼解決方案。然而,當程式碼解決方案和測試用例都是合理的但不可靠時,選擇最佳解決方案變得具有挑戰性。儘管提出了一些啟發式策略來應對這個問題,但它們缺乏強大的理論保證,並且是否存在最佳選擇策略仍然是一個懸而未決的問題。我們的工作在兩個方面做出貢獻。首先,我們展示在貝葉斯框架內,基於觀察到的解決方案和測試之間通過狀態的後驗概率可以定義最佳選擇策略。然後,識別最佳解決方案的問題被構建為一個整數規劃問題。其次,我們提出了一種有效的方法來逼近這種最佳(但無法計算)策略,其中逼近誤差受先前知識的正確性限制。然後,我們將有效的先前知識納入以定制程式碼生成任務。理論和實證研究證實現有的啟發式方法在選擇具有合理測試用例的最佳解決方案方面存在局限性。我們提出的近似最佳策略 B4 在選擇由大型語言模型(LLMs)生成的程式碼解決方案時明顯優於現有的啟發式方法,實現了相對性能提升高達 50%,比最強啟發式方法高出 246%,在最具挑戰性的情況下超過隨機選擇。我們的程式碼可在 https://github.com/ZJU-CTAG/B4 上公開獲取。
視覺數據呈現多樣形式,從僅有幾個像素的小圖標到長達數小時的視頻。現有的多模態LLM通常將這些多樣的視覺輸入標準化為固定分辨率,以供視覺編碼器使用,並為LLM生成相似數量的標記。這種方法對於多模態理解並不是最佳的,並且對於處理具有長短視覺內容的輸入是低效的。為了解決這個問題,我們提出了Oryx,一種統一的多模態架構,用於對圖像、視頻和多視角3D場景進行時空理解。Oryx提供了一種按需解決方案,可以通過兩個核心創新無縫高效地處理具有任意空間大小和時間長度的視覺輸入:1)一個預訓練的OryxViT模型,可以將圖像編碼為LLM友好的視覺表示,無論分辨率為何;2)一個動態壓縮模塊,可按需對視覺標記進行1倍至16倍的壓縮。這些設計特點使Oryx能夠應對極長的視覺上下文,例如視頻,並在保持高識別精度的同時,以較低的分辨率和高壓縮進行處理,適用於像文檔理解這樣的任務,具有本地分辨率且無壓縮。除了架構改進外,對於長上下文檢索和空間感知數據的增強數據整理和專門培訓有助於Oryx同時在圖像、視頻和3D多模態理解方面具有強大能力。我們的工作在https://github.com/Oryx-mllm/Oryx上開源。
我們提出了第一個基於參考線條著色的影片擴散框架。與先前僅依賴圖像生成模型逐幀著色線條的作品不同,我們的方法利用大規模預訓練的影片擴散模型來生成著色動畫影片。這種方法產生了更具時間一致性的結果,更能應對大範圍運動。首先,我們引入了Sketch-guided ControlNet,為影像到影片擴散模型提供額外控制,以進行可控影片合成,實現基於線條的動畫影片生成。然後,我們提出了Reference Attention,以促進從參考幀向包含快速和擴張運動的其他幀傳遞顏色。最後,我們提出了一種新的連續取樣方案,結合了Overlapped Blending Module和Prev-Reference Attention,以擴展影片擴散模型超越其原始固定長度限制,用於長影片著色。定性和定量結果均表明,我們的方法在幀和影片質量以及時間一致性方面顯著優於最先進的技術。此外,我們的方法能夠生成具有大範圍運動的高質量、長時間一致的動畫影片,這在先前的作品中是無法實現的。我們的代碼和模型可在https://luckyhzt.github.io/lvcd找到。
語言模型的預訓練階段通常以隨機初始化參數開始。隨著模型規模擴大的趨勢,訓練龐大的參數可能變得極其緩慢且昂貴。相比之下,小型語言模型的訓練成本較低,但通常無法達到大型模型的準確性。本文探索了一個有趣的想法,以連接這兩種不同的情況:我們是否能開發一種方法,使用較小的預訓練模型初始化大型語言模型?這種初始化是否會在訓練時間和最終準確性方面帶來任何好處?本文介紹了一種名為HyperCloning的方法,可以將預訓練語言模型的參數擴展到具有增加隱藏維度的更大模型。我們的方法確保較大模型保留較小模型的功能性。因此,在訓練開始之前,較大模型已經繼承了較小模型的預測能力和準確性。我們證明,訓練這樣初始化的模型可顯著節省用於預訓練大型語言模型所需的GPU時數。
在各個產業對高品質3D資產日益增加的需求下,迫切需要高效且自動化的3D內容創建。儘管近年來3D生成模型有所進步,現有方法仍面臨優化速度、幾何保真度以及物理渲染資產不足等挑戰。本文介紹了3DTopia-XL,一個可擴展的本地3D生成模型,旨在克服這些限制。3DTopia-XL利用一種新型基於基元的3D表示法PrimX,將詳細形狀、反照率和材質場編碼為緊湊的張量格式,有助於使用PBR資產建模高解析度幾何。除了新的表示法,我們提出了基於擴散Transformer(DiT)的生成框架,包括1)基元補丁壓縮和2)潛在基元擴散。3DTopia-XL學會從文本或視覺輸入生成高品質的3D資產。我們進行了大量定性和定量實驗,證明了3DTopia-XL在生成具有細緻紋理和材料的高品質3D資產方面顯著優於現有方法,有效地彌合了生成模型與實際應用之間的質量差距。
無需調整的個性化圖像生成方法在保持面部一致性(即身份)方面取得了顯著成功,即使涉及多個角色也是如此。然而,在涉及多個角色的場景中缺乏整體一致性,阻礙了這些方法創建連貫敘事的能力。在本文中,我們介紹了StoryMaker,一種個性化解決方案,它不僅保留了面部一致性,還包括服裝、髮型和身體一致性,從而有助於通過一系列圖像創建故事。StoryMaker結合了基於面部身份和裁剪角色圖像的條件,其中包括服裝、髮型和身體。具體來說,我們使用位置感知感知器重採樣器(PPR)將面部身份信息與裁剪的角色圖像整合,以獲得獨特的角色特徵。為了防止多個角色和背景之間的混合,我們使用MSE損失與分割遮罩分別限制不同角色和背景的交叉注意影響區域。此外,我們訓練生成網絡以姿勢為條件,以促進與姿勢的解耦。還採用了LoRA來增強保真度和質量。實驗強調了我們方法的有效性。StoryMaker支持眾多應用,並與其他社會插件兼容。我們的源代碼和模型權重可在https://github.com/RedAIGC/StoryMaker 上獲得。
最近的紋理生成方法取得了令人印象深刻的成果,這歸因於它們從大規模文本到圖像擴散模型中利用的強大生成先驗。然而,抽象的文本提示在提供全局紋理或形狀信息方面存在限制,這導致紋理生成方法產生模糊或不一致的模式。為了應對這一挑戰,我們提出了FlexiTex,通過視覺引導嵌入豐富信息以生成高質量紋理。FlexiTex的核心是視覺引導增強模組,它從視覺引導中納入更具體的信息,以減少文本提示中的歧義並保留高頻細節。為了進一步增強視覺引導,我們引入了一個自動設計方向提示的Direction-Aware Adaptation模組,根據不同的相機姿勢避免了Janus問題並保持語義上的全局一致性。受益於視覺引導,FlexiTex產生了定量和定性上令人滿意的結果,展示了其推進現實應用中紋理生成的潛力。
語言模型(LMs)可能會產生對人類來說難以檢測的錯誤,尤其是在任務較為複雜時。RLHF,即最流行的後訓練方法,可能會加劇這個問題:為了獲得更高的獎勵,LMs可能會更善於說服人類他們是對的,即使他們是錯的。我們在標準的RLHF流程下研究了這一現象,稱之為“U-SOPHISTRY”,因為這是模型開發者意外的結果。具體而言,我們要求有時間限制(例如3-10分鐘)的人類受試者評估模型輸出的正確性,並計算人類對金標籤的準確性。在問答任務(QuALITY)和編程任務(APPS)中,RLHF使LMs更善於說服我們的受試者,但並未更善於正確完成任務。RLHF還使模型更難評估:在QuALITY上,我們受試者的誤報率增加了24.1%,在APPS上增加了18.3%。最後,我們展示了探測,一種用於檢測有意的詭辯(例如後門式LMs)的最先進方法,並不能推廣到U-SOPHISTRY。我們的結果突顯了RLHF的一個重要失敗模式,呼籲在協助人類對齊方面進行更多研究。
指導調整通過對齊大型語言模型(LLMs)與人類偏好在各種任務上增強它們。傳統方法創建指導調整數據集面臨低資源語言的嚴重挑戰,因為它們依賴於數據標註。本研究引入了一種新方法,多語言反向指導(MURI),它為低資源語言生成高質量的指導調整數據集,無需人類標註者或現有的多語言模型。利用反向指導和翻譯管道,MURI從現有的低資源語言人寫的文本中生成指導-輸出對。這種方法通過從不同本地領域的文本中獲取並應用過濾器來消除不當內容,確保文化相關性和多樣性。我們的數據集,MURI-IT,包括超過200種語言的200多萬個指導-輸出對。由母語人士評估以及與mT5模型的微調實驗顯示了這種方法對於自然語言理解和開放式生成的有效性。我們在https://github.com/akoksal/muri 上公開發布數據集和模型。
我們提出了3DGS-LM,這是一種新方法,通過將其ADAM優化器替換為定制的Levenberg-Marquardt(LM)來加速3D高斯擴散(3DGS)的重建。現有方法通過減少高斯數量或改進可微光柵化器的實現來減少優化時間。然而,它們仍然依賴於ADAM優化器來擬合場景中數千次迭代的高斯參數,這可能需要長達一小時的時間。為此,我們將優化器更改為與3DGS可微光柵化器並行運行的LM。為了實現高效的GPU並行處理,我們提出了一種用於中間梯度的緩存數據結構,這使我們能夠在自定義CUDA內核中高效計算雅可比向量乘積。在每個LM迭代中,我們使用這些內核從多個圖像子集計算更新方向,並將它們組合成加權平均值。總的來說,我們的方法比原始的3DGS快30%,同時獲得相同的重建質量。我們的優化方法也不受其他加速3DGS方法的影響,因此與普通3DGS相比,甚至可以實現更快的加速。
基於擴散的模型進行視頻生成受到高計算成本的限制,這是由於逐幀迭代擴散過程所致。本研究提出了一個名為Diffusion Reuse MOtion(Dr. Mo)網絡,用於加速潛在的視頻生成。我們的關鍵發現是,在早期去噪步驟中的粗粒度噪聲展現出在連續視頻幀中高運動一致性。根據這一觀察結果,Dr. Mo通過納入精心設計的輕量級幀間運動,將這些粗粒度噪聲傳播到下一幀,從而消除了逐幀擴散模型中的大量計算冗余。更敏感和細粒度的噪聲仍然通過後續的去噪步驟獲取,這對於保留視覺質量可能是至關重要的。因此,決定哪些中間步驟應該從基於運動的傳播轉換為去噪,可能是一個關鍵問題,也是效率和質量之間的關鍵折衷。Dr. Mo採用一個名為Denoising Step Selector(DSS)的元網絡,動態確定視頻幀中的理想中間步驟。對視頻生成和編輯任務的廣泛評估表明,Dr. Mo能夠顯著加速擴散模型在視頻任務中,同時提高視覺質量。
自動音頻字幕(AAC)任務要求模型生成音頻輸入的自然語言描述。評估這些機器生成的音頻字幕是一項複雜任務,需要考慮多種因素,其中包括聽覺場景理解、聲音對象推斷、時間連貫性和場景的環境背景。儘管當前方法專注於特定方面,但它們通常無法提供與人類判斷良好一致的總體得分。在這項工作中,我們提出了CLAIR-A,一種簡單靈活的方法,利用大型語言模型(LLMs)的零樣本能力,通過直接向LLMs請求語義距離分數來評估候選音頻字幕。在我們的評估中,CLAIR-A相對於領域特定的FENSE指標,比傳統指標更好地預測了人類對質量的判斷,相對於Clotho-Eval數據集上最佳通用度量,準確度提高了5.8%,最高達11%。此外,CLAIR-A通過允許語言模型解釋其分數背後的推理,提供了更多透明度,這些解釋被人類評估者評分比基準方法提供的好30%。CLAIR-A已公開在https://github.com/DavidMChan/clair-a。