每日精選AI研究論文及翻譯
GPT-4o的顯著多模式能力和互動體驗突顯了其在實際應用中的關鍵作用,然而它缺乏高效的開源對應物。在本文中,我們介紹了Baichuan-Omni,這是第一個開源的7B多模式大型語言模型(MLLM),能夠同時處理和分析圖像、視頻、音頻和文本的模態,同時提供先進的多模式互動體驗和強大的性能。我們提出了一種有效的多模式訓練架構,從7B模型開始,通過兩個階段的多模式對齊和跨音頻、圖像、視頻和文本模態的多任務微調。這種方法使語言模型能夠有效處理視覺和音頻數據。通過在各種全模式和多模式基準測試中展現出強大的性能,我們希望這一貢獻能成為開源社區在推進多模式理解和實時互動方面的競爭基準。
擴散模型,如穩定擴散,已在視覺生成方面取得重大進展,然而其範式與自回歸語言模型根本不同,使統一語言-視覺模型的發展變得複雜。最近的努力,如LlamaGen,嘗試使用離散VQVAE標記來進行自回歸圖像生成,但涉及的大量標記使這種方法效率低下且緩慢。在這項工作中,我們提出了Meissonic,將非自回歸遮罩圖像建模(MIM)文本到圖像提升到與SDXL等最先進的擴散模型相當的水平。通過融入一套全面的架構創新、先進的位置編碼策略和優化的取樣條件,Meissonic顯著提高了MIM的性能和效率。此外,我們利用高質量的訓練數據,整合由人類偏好分數通知的微條件,並使用特徵壓縮層進一步增強圖像的保真度和分辨率。我們的模型不僅在生成高質量、高分辨率圖像方面與SDXL等現有模型相匹敵,甚至經常超越其表現。大量實驗驗證了Meissonic的能力,展示了其作為文本到圖像合成新標準的潛力。我們釋出了一個能夠生成1024乘以1024分辨率圖像的模型檢查點。
檢索增強生成(RAG)是在許多基於知識的任務中有效增強大型語言模型(LLMs)的關鍵手段。然而,現有的RAG方法在處理知識密集型推理任務時遇到困難,因為這些任務所需的有用信息分散不利。這種特徵使得現有的RAG方法難以準確識別關鍵信息並在這種嘈雜的增強中進行全局推理。本文受到認知理論的啟發,即人類在應對知識密集型推理時將原始信息轉換為各種結構化知識,提出了一個新框架,名為StructRAG,該框架可以識別適合當前任務的最佳結構類型,將原始文檔重構為這種結構化格式,並基於結果結構推斷答案。在各種知識密集型任務上進行的大量實驗表明,StructRAG實現了最先進的性能,特別擅長應對具有挑戰性的情境,展示了其作為增強LLMs在複雜現實應用中的有效解決方案的潛力。
大型視覺語言模型(VLMs)結合大型語言模型與視覺編碼器,展示了在各種任務中的潛力。然而,由於預訓練和微調之間的領域差異,它們在特定任務應用中通常表現不佳。我們引入了VITask,一個新穎的框架,通過整合特定任務模型(TSMs)來增強VLMs的特定任務適應性。VITask採用三個關鍵策略:範例提示(EP)、回應分佈對齊(RDA)和對比回應調整(CRT),通過調整其回應分佈來提高VLMs的特定任務性能。EP允許TSM特徵引導VLMs,而RDA使VLMs能夠在推論過程中無需TSMs進行適應,而是從範例提示的模型中學習。CRT進一步優化正確圖像-回應對的排名,從而降低生成不希望的回應的風險。在9種成像模式下的12個醫學診斷數據集上的實驗表明,VITask優於基本指令調整的VLMs和TSMs,展示了其有效整合兩種模型的互補特徵的能力。此外,VITask提供了實用優勢,如靈活的TSM整合和對不完整指令的穩健性,使其成為特定任務VLM調整的多功能高效解決方案。我們的程式碼可在https://github.com/baiyang4/VITask找到。
高效的資料選擇對於加速大型語言模型(LLMs)的預訓練至關重要。儘管已提出各種方法來增強資料效率,但有限的研究已解決這些方法之間的固有衝突,以實現最佳的LLM預訓練資料選擇。為了應對這個問題,我們提出了一種新穎的多智能體協作資料選擇機制。在這個框架中,每個資料選擇方法都作為獨立的智能體,並設計了一個智能體控制台,動態整合整個LLM訓練過程中所有智能體的信息。我們進行了廣泛的實證研究來評估我們的多智能體框架。實驗結果表明,我們的方法顯著提高了資料效率,在LLM訓練中加速了收斂,並在多個語言模型基準測試中相對於最先進方法實現了平均性能提升10.5%。
在深度神經網絡中理解特徵如何跨層演變是機械解釋性中的一個基本挑戰,特別是由於多義性和特徵重疊。儘管稀疏自編碼器(SAEs)已被用於從單個層中提取可解釋的特徵,但跨層對齊這些特徵仍然是一個未解決的問題。在本文中,我們介紹了SAE Match,這是一種新穎的、無需數據的方法,用於對齊神經網絡中不同層的SAE特徵。我們的方法涉及通過最小化SAEs的折疊參數之間的均方誤差來匹配特徵,這種技術將激活閾值納入編碼器和解碼器權重中,以考慮特徵尺度的差異。通過對Gemma 2語言模型進行大量實驗,我們展示了我們的方法有效地捕捉了跨層的特徵演變,提高了特徵匹配的質量。我們還表明,特徵在幾個層上持續存在,我們的方法可以近似跨層的隱藏狀態。我們的工作推動了對神經網絡中特徵動態的理解,並為機械解釋性研究提供了一個新工具。
最近生成模型的進步展示了在生成出色內容方面的卓越能力。然而,大多數模型都是在專有高質量數據上進行訓練,有些模型保留其參數並僅提供可訪問的應用程序編程接口(API),限制了它們對下游任務的好處。為了探索使用公開可用資源訓練與先進模型相媲美的文本到圖像生成模型的可行性,我們介紹了EvolveDirector。該框架通過與先進模型的公共API互動,以獲取文本-圖像數據對來訓練基礎模型。我們對大量數據進行的實驗表明,使用先進模型生成的數據訓練的模型可以近似其生成能力。然而,這需要大規模樣本,至少為1000萬個。這將帶來顯著的時間、計算資源費用,尤其是與收費API相關的成本。為了解決這個問題,我們利用預訓練的大視覺語言模型(VLM)來引導基礎模型的演進。VLM在訓練過程中持續評估基礎模型,並通過區分、擴展、刪除和變異操作動態更新和精煉訓練數據集。實驗結果表明,這種範式顯著減少了所需的數據量。此外,當接近多個先進模型時,EvolveDirector可以選擇由它們生成的最佳樣本來學習強大且平衡的能力。最終訓練出的模型Edgen被證明優於這些先進模型。代碼和模型權重可在https://github.com/showlab/EvolveDirector找到。
大型語言模型(LLMs)如GPT-4、PaLM和LLaMA在各種推理任務中顯示出顯著的改進。然而,較小的模型,如Llama-3-8B和DeepSeekMath-Base,在複雜數學推理方面仍然面臨困難,因為它們無法有效地識別和糾正推理錯誤。最近基於反思的方法旨在解決這些問題,通過啟用自我反思和自我糾正,但它們仍然面臨獨立檢測推理步驟中錯誤的挑戰。為了克服這些限制,我們提出了SuperCorrect,這是一個新穎的兩階段框架,使用一個大型教師模型來監督和糾正較小學生模型的推理和反思過程。在第一階段,我們從教師模型中提取分層高級和詳細的思維模板,以引導學生模型引出更精細的推理思維。在第二階段,我們引入跨模型協作直接偏好優化(DPO)來增強學生模型的自我糾正能力,通過在訓練期間遵循教師的糾正軌跡。這種跨模型DPO方法教導學生模型有效地定位和解決錯誤思維,並從教師模型的錯誤驅動見解中獲取新技能和知識,打破其思維的瓶頸,應對具有挑戰性的問題。廣泛的實驗一致表明我們優於以往的方法。值得注意的是,我們的SuperCorrect-7B模型在MATH/GSM8K基準測試中顯著超越強大的DeepSeekMath-7B分別達到7.8%/5.3%和Qwen2.5-Math-7B分別達到15.1%/6.3%的性能,成為所有7B模型中新的SOTA性能。程式碼:https://github.com/YangLing0818/SuperCorrect-llm
大型語言模型(LLMs)展示了在各個領域中的印象深刻能力,包括角色扮演、創意寫作、數學推理和編碼。儘管取得了這些進展,LLMs 仍然在長度控制方面遇到挑戰,由於其在標記級別操作和在具有嚴格長度限制數據上的不足訓練,經常無法遵守特定長度約束。我們確定這個問題源於缺乏位置意識,並提出新穎的方法--PositionID提示和PositionID微調--來解決這個問題。這些方法增強了模型在生成過程中持續監控和管理文本長度的能力。此外,我們引入了PositionID CP提示,以使LLMs能夠準確執行複製和粘貼操作。此外,我們為評估長度控制和複製-粘貼能力開發了兩個基準。我們的實驗表明,我們的方法顯著提高了模型遵守長度約束和複製-粘貼準確性,而不會影響回應質量。
從文字描述生成高質量的3D資產仍然是計算機圖形學和視覺研究中的一個關鍵挑戰。由於3D數據稀缺,最先進的方法利用預先訓練的2D擴散先驗,通過得分蒸餾抽樣(SDS)進行優化。儘管取得了進展,但製作包含多個物體或精細交互作用的複雜3D場景仍然困難。為應對這一挑戰,最近的方法已納入框或佈局指導。然而,這些以佈局為指導的組合方法通常難以提供細粒度控制,因為它們通常是粗糙的並且缺乏表現力。為了克服這些挑戰,我們引入了一種新的SDS方法,稱為語義得分蒸餾抽樣(SemanticSDS),旨在有效提高組合文本到3D生成的表現力和準確性。我們的方法集成了新的語義嵌入,可以在不同的渲染視圖之間保持一致性,並清晰區分各種物體和部件。這些嵌入被轉換為語義地圖,該地圖指導區域特定的SDS過程,實現精確的優化和組合生成。通過利用明確的語義指導,我們的方法發揮了現有預先訓練擴散模型的組合能力,從而在3D內容生成中實現了卓越的質量,特別是對於複雜的物體和場景。實驗結果表明,我們的SemanticSDS框架對於生成最先進的複雜3D內容非常有效。程式碼:https://github.com/YangLing0818/SemanticSDS-3D
基於Transformer的語言模型推論始於提示處理步驟。在此步驟中,模型生成第一個輸出標記並存儲未來生成步驟所需的KV快取。當提示長度或批次大小增加時,這個提示處理步驟可能在邊緣設備上變得計算昂貴,對十億參數模型而言可能需要10秒或更長時間。這將降低用戶體驗,導致模型輸出出現顯著的延遲。為了減少預訓練模型生成第一個輸出(稱為“首標記時間”,或TTFT)所需的時間,我們引入了一種名為KV Prediction的新方法。在我們的方法中,使用一個小型輔助模型來處理提示並生成基本模型使用的KV快取的近似值。然後,將這個近似的KV快取與基本模型一起用於自回歸生成,而無需再次查詢輔助模型。我們證明,與基準相比,我們的方法在效率和準確性之間產生了帕累托最優的折衷。在TriviaQA上,我們展示了在一系列TTFT FLOPs預算中相對準確性提升15%-50%的範圍。此外,我們展示了在固定的TTFT FLOPs預算下,在HumanEval的Python代碼完成中高達30%的準確性提升。此外,我們在Apple M2 Pro CPU上對模型進行基準測試,並展示我們在FLOPs上的改進轉化為硬體上的TTFT加速。我們在https://github.com/apple/corenet/tree/main/projects/kv-prediction 發布了我們的代碼。
離散擴散已經取得了最先進的表現,在標準基準測試中優於或接近自回歸模型。在這項工作中,我們介紹了具有計劃去噪(DDPD)的離散擴散,這是一個將生成過程分為兩個模型的新框架:計劃者和去噪器。在推論時,計劃者通過識別最受損位置來選擇下一步需要去噪的位置,包括最初受損和需要進一步精緻的位置。這種計劃和去噪的方法通過迭代地識別和去噪最佳順序中的損壞,在生成期間實現更高效的重建。DDPD優於傳統僅去噪器的遮罩擴散方法,在語言建模基準測試(如text8、OpenWebText和基於ImageNet 256x256的基於標記的生成)上取得了優異結果。值得注意的是,在語言建模中,DDPD在生成困惑度方面顯著降低了基於擴散和自回歸方法之間的性能差距。代碼可在https://github.com/liusulin/DDPD找到。
我們提出了ZeroComp,一種有效的零樣本3D物體合成方法,在訓練過程中不需要配對的合成場景圖像。我們的方法利用ControlNet從內在圖像進行條件設置,並將其與穩定擴散模型結合,利用其場景先驗,共同作為有效的渲染引擎。在訓練過程中,ZeroComp使用基於幾何、反照率和遮罩陰影的內在圖像,而無需具有和不具有合成物體的場景配對圖像。一旦訓練完成,它可以無縫地將虛擬3D物體整合到場景中,調整陰影以創建逼真的合成效果。我們開發了一個高質量的評估數據集,並展示了ZeroComp在定量和人類感知基準中優於使用明確照明估計和生成技術的方法。此外,ZeroComp擴展到真實和室外圖像合成,即使僅在合成室內數據上進行訓練,也展示了其在圖像合成中的有效性。
糾正流轉換器(RFTs)提供卓越的訓練和推論效率,使其成為擴展擴散模型最可行的方向。然而,由於數據質量和訓練成本的問題,生成解析度的進展相對緩慢。無調整解析度外推提供了一種替代方案,但目前的方法常常會降低生成穩定性,限制了實際應用。本文回顧了現有的解析度外推方法,並引入了 I-Max 框架,以最大化文本到圖像 RFTs 的解析度潛力。I-Max 具有以下特點:(i)一種新穎的投影流策略,用於穩定外推,以及(ii)一個先進的推論工具包,用於將模型知識泛化到更高的解析度。通過 Lumina-Next-2K 和 Flux.1-dev 的實驗,證明了 I-Max 在解析度外推中增強穩定性的能力,並顯示它能帶來圖像細節的出現和瑕疵修正,確認了無調整解析度外推的實際價值。
我們介紹了 DA-Code,這是一個專門設計用於評估基於代理的資料科學任務上的LLM的代碼生成基準。這個基準包含三個核心元素:首先,DA-Code中的任務本質上具有挑戰性,使其與傳統的代碼生成任務有所區別,需要具有先進編碼技能的基礎和規劃能力。其次,DA-Code中的示例都基於真實和多樣化的數據,涵蓋了廣泛的複雜數據整理和分析任務。第三,為了解決這些任務,模型必須利用複雜的資料科學編程語言,執行複雜的數據處理並得出答案。我們在一個可控且可執行的環境中設置了這個基準,這個環境與現實世界的數據分析場景相一致並且可擴展。標註者精心設計了評估套件,以確保評估的準確性和韌性。我們開發了DA-Agent基準。實驗表明,儘管基準優於其他現有框架,但使用當前最佳的LLM僅達到30.5%的準確率,仍有很大的改進空間。我們在https://da-code-bench.github.io 發布了我們的基準。
近年來,充斥著具有煽動性或誤導性的「假」新聞內容已變得越來越普遍。與此同時,利用人工智慧工具生成栩栩如生的圖像以描繪任何想像得到的場景也變得比以往更容易。結合這兩者──人工智慧生成的假新聞內容──尤其具有強大且危險的影響力。為了打擊人工智慧生成的假新聞的傳播,我們提出 MiRAGeNews 資料集,這是一個包含 12,500 對高質量真實和人工智慧生成圖像標題的資料集,來自最先進的生成器。我們發現我們的資料集對人類(60% F-1)和最先進的多模態LLMs(< 24% F-1)構成了重大挑戰。使用我們的資料集,我們訓練了一個多模態檢測器(MiRAGe),在來自跨領域圖像生成器和新聞發布者的圖像標題對上,相較於最先進的基準,提高了 +5.1% 的 F-1。我們釋出我們的程式碼和資料,以協助未來檢測人工智慧生成內容的相關工作。
從大型語言模型(LLMs)生成多樣化回應對於規劃/搜索和合成數據生成等應用至關重要,其中多樣性能夠在不同生成中提供獨特答案。先前的方法依賴於增加溫度以提高多樣性。然而,與普遍觀念相反,我們不僅顯示這種方法在溫度增加時會產生質量較低的單個生成,而且還取決於模型的下一令牌概率與真實答案分佈相似。我們提出一種替代方法,該方法利用語言模型本身將空間劃分為層。在推論時,會隨機選擇一個層,並從該層中抽取樣本。為了衡量多樣性,我們引入了CoverageQA,這是一個包含多個同等合理答案的不明確問題數據集,通過測量輸出分佈與有效基本真實答案之間的KL散度來評估多樣性。由於對專有模型計算每個回應/解決方案的概率是不可行的,因此我們通過測量對基本真實解決方案的召回率來進行評估。我們的評估結果顯示,使用SimpleStrat相對於GPT-4o的召回率提高了0.05,相對於Llama 3的KL散度平均減少了0.36。
大型語言模型(LLMs)通過利用思維鏈(CoT)提示展現了在各種複雜任務中的卓越表現。最近的研究提出了一種知識蒸餾(KD)方法,即推理蒸餾,通過微調由LLM教師生成的多步推理的語言模型,將LLMs的推理能力轉移。然而,他們對LLM教師模型中的蒸餾集存在兩個挑戰考慮不足,即1)數據質量和2)軟標籤提供。在本文中,我們提出了Mentor-KD,該方法有效地將LLMs的多步推理能力蒸餾到較小的LMs,同時解決了上述挑戰。具體來說,我們利用一個導師,即中等大小的任務特定微調模型,來擴充額外的CoT標註,並在推理蒸餾過程中為學生模型提供軟標籤。我們進行了大量實驗,並確認了Mentor-KD在各種模型和複雜推理任務中的有效性。
大型語言模型(LLMs)展現出令人印象深刻的能力,但需要與人類偏好仔細對齊。傳統的訓練時間方法利用人類偏好數據微調LLMs,但需要巨大的訓練成本,並需要反复訓練以應對多樣的用戶偏好。測試時間對齊方法通過使用獎勵模型(RMs)來引導凍結的LLMs,而無需重新訓練。然而,現有的測試時間方法依賴於軌跡級別的RMs,這些RMs旨在評估完整回應,因此不適用於需要從部分回應計算下一令牌獎勵的自回歸文本生成。為了應對這一問題,我們引入了GenARM,一種測試時間對齊方法,利用自回歸獎勵模型,這是一種新穎的獎勵參數化設計,旨在預測下一令牌獎勵,實現高效和有效的自回歸生成。從理論上講,我們證明了這種參數化可以明確地引導凍結的LLMs走向在KL正則化強化學習框架內傳統RMs可以實現的任何分佈。實驗結果表明,GenARM明顯優於先前的測試時間對齊基線,並與訓練時間方法的性能相匹配。此外,GenARM實現了高效的弱到強引導,將更大的LLMs與更小的RMs對齊,而無需訓練更大的模型所需的高成本。此外,GenARM支持多目標對齊,允許在偏好維度之間進行即時權衡,滿足多樣的用戶偏好而無需重新訓練。
Sonar圖像合成對於推動水下探索、海洋生物學和防禦應用至關重要。傳統方法通常依賴於使用聲納傳感器進行廣泛且昂貴的數據收集,危及數據質量和多樣性。為了克服這些限制,本研究提出了一種新的sonar圖像合成框架,Synth-SONAR,利用擴散模型和GPT提示。Synth-SONAR的三個關鍵創新點如下:首先,通過將生成式人工智慧風格注入技術與公開可用的真實/模擬數據相結合,從而為sonar研究生成了最大的sonar數據庫之一。其次,雙文本條件sonar擴散模型層次結構合成了粗粒和細粒度的sonar圖像,提高了質量和多樣性。第三,高層(粗糙)和低層(詳細)基於文本的sonar生成方法利用了視覺語言模型(VLMs)和GPT提示中可用的先進語義信息。在推理過程中,該方法從文本提示中生成多樣且逼真的sonar圖像,彌合了文本描述與sonar圖像生成之間的差距。據我們所知,這是首次將GPT提示應用於sonar圖像。Synth-SONAR在生成高質量合成sonar數據集方面取得了最新成果,顯著增強了數據集的多樣性和逼真性。