每日精選AI研究論文及翻譯
測試時間擴展(TTS)是通過在推論階段使用額外計算來提高大型語言模型(LLMs)性能的重要方法。然而,目前的研究並未系統分析策略模型、處理獎勵模型(PRMs)和問題難度如何影響TTS。這種分析缺乏限制了對TTS方法的理解和實際應用。本文聚焦於兩個核心問題:(1)如何跨不同策略模型、PRMs和問題難度水平擴展測試時間計算的最佳方法?(2)延長計算能在多大程度上提高LLMs在複雜任務上的性能,較小的語言模型是否可以通過這種方法勝過較大的模型?通過對MATH-500和具挑戰性的AIME24任務進行全面實驗,我們得出以下觀察:(1)計算最優TTS策略高度依賴於策略模型、PRM和問題難度的選擇。 (2)使用我們的計算最優TTS策略,極小的策略模型可以勝過較大的模型。例如,1B LLM在MATH-500上可以超越405B LLM。此外,在MATH-500和AIME24上,0.5B LLM勝過GPT-4o,3B LLM超越405B LLM,7B LLM擊敗o1和DeepSeek-R1,同時具有更高的推論效率。這些發現顯示了將TTS策略適應於每個任務和模型的特定特徵的重要性,並表明TTS是增強LLMs推理能力的一種有前途的方法。
現有的多語言文本淨化方法受制於平行多語言數據集的稀缺。在這項工作中,我們介紹了一個用於生成多語言平行淨化數據的流程。我們還介紹了SynthDetoxM,這是一個手動收集和合成生成的多語言平行文本淨化數據集,包括德語、法語、西班牙語和俄語,共包含16,000個高質量的淨化句對。這些數據來自不同的毒性評估數據集,然後在少樣本設置中使用九個現代開源LLM進行重寫。我們的實驗表明,在數據有限的情況下,訓練在生成的合成數據集上的模型表現優於在人工標註的MultiParaDetox數據集上訓練的模型。在少樣本設置中,訓練在SynthDetoxM上的模型勝過所有評估的LLM。我們釋出我們的數據集和代碼,以幫助進一步研究多語言文本淨化。
推理能力,尤其是解決複雜數學問題的能力,是智能的重要組成部分。像是OpenAI的o系列模型等專有公司最近在推理任務上取得了顯著進展。然而,完整的技術細節仍未公開,目前被認為採用的技術僅有強化學習(RL)和長串思維。本文提出了一個新的RL框架,稱為OREAL,旨在通過基於結果獎勵的強化學習來追求在數學推理任務中可以達到的性能極限,其中僅可輕易獲取二元結果獎勵。我們在理論上證明,從性能最佳化的KL正則化策略可以透過從性能最佳化的KL正則化策略在二元反饋環境中從最佳N(BoN)採樣的正軌跡進行行為克隆就足以學習。這種形式進一步意味著負樣本的獎勵應重新塑造,以確保正負樣本之間的梯度一致性。為了減輕RL中由稀疏獎勵帶來的長期困難,這些困難甚至被用於推理任務的長串思維的部分正確性所加劇,我們進一步應用了一個基於令牌級獎勵模型來採樣推理軌跡中的重要令牌進行學習。通過OREAL,第一次,一個7B模型可以在MATH-500上通過RL獲得94.0的pass@1準確率,與32B模型不相上下。OREAL-32B還超越了以蒸餾方式訓練的先前32B模型,在MATH-500上以95.0的pass@1準確率。我們的研究還表明了RL中初始策略模型和訓練查詢的重要性。代碼、模型和數據將被釋出以造福未來的研究。
本文介紹了「深度詛咒」這一概念,突顯、解釋和應對現代大型語言模型(LLMs)中近一半的層次效果不如預期的最近觀察。我們首先確認了這一現象在最流行的LLM家族中普遍存在,如Llama、Mistral、DeepSeek和Qwen。我們的理論和實證分析確定了造成LLMs深層次效果不佳的根本原因是廣泛使用的預層規範化(Pre-LN)。雖然Pre-LN穩定了Transformer LLM的訓練,但其輸出變異量隨著模型深度呈指數增長,導致深層Transformer塊的導數幾乎成為一個恆等矩陣,因此幾乎不對訓練產生貢獻。為了解決這一訓練障礙,我們提出了層規範化縮放(LayerNorm Scaling),通過將層規範化的輸出變異量按其深度的平方根的倒數進行縮放。這一簡單修改減輕了更深Transformer層的輸出變異爆炸,提高了它們的貢獻。我們的實驗結果涵蓋了從130M到1B的模型規模,顯示與Pre-LN相比,層規範化縮放顯著提高了LLM的預訓練性能。此外,這一改進無縫地延續到監督微調。所有這些收益都歸因於層規範化縮放使更深層次在訓練期間更有效地發揮作用。
在多智能體環境中,以自然語言進行溝通是一個強大的工具,因為它使獨立智能體能夠在部分可觀察的情況下分享信息,並實現與人類的零-shot協調。然而,大多數先前的研究受限於依賴大量人類示範進行訓練,或缺乏生成自然且有用的溝通策略的能力。在這項研究中,我們訓練語言模型以自然語言就環境進行有產出的討論,而無需任何人類示範。我們將溝通問題分解為聆聽和說話兩部分。我們的關鍵想法是利用智能體的目標來預測有關世界的有用信息,作為引導溝通的密集獎勵信號。具體來說,我們通過訓練模型根據討論來預測環境信息,從而提高模型的聆聽技能,同時通過多智能體強化學習來改進模型的說話技能,通過根據其對其他智能體的影響來獎勵消息。為了研究在複雜社交環境中溝通的角色和必要性,我們研究了一個基於《Among Us》的具體社交推理遊戲,其中需要回答的關鍵問題是對手的身份。我們分析了由於我們的技術而出現的新行為,例如指控嫌疑人和提供證據,並發現這使得強有力的討論成為可能,勝率比標準RL提高了一倍。我們在https://socialdeductionllm.github.io/釋出了我們的代碼和模型。
對模型權重進行量化對於降低大型模型的通訊和推論成本至關重要。然而,將模型量化至低精度(如int4或int2)需要在模型質量上進行權衡;特別是int2已知會嚴重降低模型質量。因此,從業者通常被迫維護具有不同量化級別的多個模型,或提供最符合質量-延遲權衡的單一模型。另一方面,整數數據類型(如int8)本質上具有嵌套(Matryoshka)結構,其中較小位寬的整數(如int4或int2)嵌套在最顯著的位元中。本文提出了Matryoshka量化(MatQuant),這是一種新穎的多尺度量化技術,解決了需要多個量化模型的挑戰。它允許訓練和維護僅一個模型,然後可以以不同精度級別提供服務。此外,由於MatQuant提供的共同訓練和共同蒸餾正則化,由MatQuant提取的int2精度模型可能比標準int2量化(使用QAT或OmniQuant等技術)準確度高達10%。這代表了模型量化方面的重大進展,事實證明,在相同設定下,一個int2 FFN-量化的Gemma-2 9B模型比一個int8 FFN-量化的Gemma-2 2B模型更準確。
本文介紹了大記憶體模型(LM2),這是一種僅包含解碼器的Transformer架構,配備了一個輔助記憶模組,旨在解決標準Transformer在多步推理、關係論證和合成分佈在長範圍內的信息方面的局限性。所提出的LM2融入了一個作為上下文表示庫的記憶模組,通過交叉注意力與輸入標記進行交互作用,並通過閘控機制進行更新。為了保留Transformer的通用能力,LM2在整合一條互補的記憶路徑的同時保持了原始信息流。在BABILong基準測試中的實驗結果顯示,LM2模型在各任務上平均優於記憶增強的RMT模型37.1%和基準Llama-3.2模型86.3%。LM2在多跳推理、數值推理和大範圍問答方面展現出卓越的能力。在MMLU數據集上,它比預訓練的普通模型提高了5.0%,表明其記憶模組不會降低通用任務的性能。此外,在我們的分析中,我們探討了記憶可解釋性、記憶模組的有效性和測試時行為。我們的研究結果強調了明確記憶在增強Transformer架構中的重要性。
大型語言模型(LLMs)在程式碼生成和問題解決方面取得了顯著進展。目前的方法採用基於外部工具的迭代式調試器,使用編譯器或其他基於工具的運行時反饋來優化各種方法生成的粗糙程式。然而,這些方法的有效性在很大程度上取決於初始程式碼生成的質量,這仍然是一個懸而未決的挑戰。在本文中,我們介紹了CodeSim,這是一個新穎的多智能體程式碼生成框架,通過類似人類感知的方法全面解決程式合成的規劃、編碼和調試階段。正如人類通過視覺模擬驗證對任何算法的理解一樣,CodeSim獨特地提供了一種通過逐步模擬輸入/輸出的計劃驗證和內部調試方法。在七個具有挑戰性的競爭性問題解決和程式合成基準測試中進行的大量實驗顯示了CodeSim卓越的程式碼生成能力。我們的框架實現了新的最先進(一次通過)結果 -(HumanEval 95.1%,MBPP 90.7%,APPS 22%和CodeContests 29.1%)。此外,我們的方法在與外部調試器級聯時展現出更大的增強潛力。為了促進該領域的進一步研究和開發,我們在此鏈接中開源了我們的框架(https://kagnlp.github.io/codesim.github.io/)。
近年來,建立統一的多模態理解和生成模型引起了越來越多的研究興趣,其中Show-o被視為一個顯著的代表,展示了在文本到圖像和圖像到文本生成方面的巨大潛力。Show-o的推論包括逐步去噪圖像標記和自回歸解碼文本標記,然而,不幸的是,它在兩個方面都存在效率問題。本文介紹了Show-o Turbo 以彌合這一差距。我們首先基於文本標記的平行解碼,為Show-o中圖像和文本生成提出了統一的去噪觀點。然後,我們建議將一種適用於縮短擴散模型去噪過程的一致性蒸餾(CD)方法擴展到Show-o的多模態去噪軌跡。我們引入了一種軌跡分割策略和課程學習程序以改善訓練收斂。在實驗中,在文本到圖像生成方面,Show-o Turbo 在4個採樣步驟下展示了0.625的GenEval分數,而不使用無分類器引導(CFG),優於原始的具有8個步驟和CFG的Show-o;在圖像到文本生成方面,Show-o Turbo 顯示出1.5倍的加速,而不會明顯犧牲性能。代碼可在https://github.com/zhijie-group/Show-o-Turbo找到。
我們提出,通過擴展思維模板的層次式LLM推理,能夠有效優化推理搜索空間,並且勝過OpenAI o1-preview和DeepSeek V3等強大LLM的數學推理能力。我們使用僅8個GPU訓練了我們的ReasonFlux-32B模型,並引入了三項創新:(i) 一個結構化且通用的思維模板庫,包含約500個高層次思維模板,能夠泛化到類似或相關的推理問題;(ii) 在一系列思維模板上執行層次式強化學習,而不是長CoTs,優化基礎LLM以規劃出處理逐漸複雜問題的最佳模板軌跡;(iii) 一個全新的推理擴展系統,能夠在推理時自適應地擴展思維模板,實現層次式LLM推理。通過包含連續思維模板的模板軌跡,我們的ReasonFlux-32B顯著提升了數學推理能力至最先進水平。值得注意的是,在MATH基準測試中,它達到了91.2%的準確率,比o1-preview高出6.7%。在美國數學奧林匹克(AIME)基準測試中,ReasonFlux-32B解決了平均56.7%的問題,分別超過o1-preview和DeepSeek-V3的27%和45%。代碼:https://github.com/Gen-Verse/ReasonFlux
在大型語言模型(LLMs)中加速推論對於即時互動至關重要,因為它們已被廣泛應用於現實世界的服務中。為了提高推論速度,一種完全算法化的解決方案——推測性解碼,通過起草和驗證標記引起了關注,從而在單個前向傳遞中生成多個標記。然而,目前的起草策略通常需要進行重大微調,或者在不同任務之間表現不一致。為了應對這些挑戰,我們提出了層次起草(HD),這是一種基於時間局部性的新型無損起草方法,將各種標記來源組織到基於層次結構的多個數據庫中。在起草步驟中,HD從最高到最低的局部性依次訪問多個數據庫,以獲取起草標記,確保在不同任務之間實現一致的加速,並將起草延遲降至最低。我們在使用具有7B和13B參數的LLMs進行的Spec-Bench實驗中表明,HD優於現有的數據庫起草方法,在模型大小、任務和溫度之間實現了穩健的推理加速。
大型語言模型(LLM)代理展示了在任務自動化和智能決策方面的卓越能力,推動了代理開發框架(如LangChain和AutoGen)的廣泛應用。然而,這些框架主要面向具有豐富技術專業知識的開發人員,這是一個重要限制,考慮到全球僅有0.03%的人口具備必要的編程技能。這種明顯的可及性差距引發了一個基本問題:我們是否可以讓每個人,無論其技術背景如何,僅使用自然語言就能構建自己的LLM代理?為應對這一挑戰,我們介紹了MetaChain-一個完全自動化且高度自我發展的框架,使用戶能夠僅通過自然語言創建和部署LLM代理。作為一個自治代理操作系統運行,MetaChain包括四個關鍵組件:i)代理系統工具,ii)LLM驅動的可操作引擎,iii)自管理文件系統,和iv)自我遊玩代理定制模塊。這個輕量而強大的系統實現了工具、代理和工作流的高效動態創建和修改,無需編碼要求或手動干預。除了無代碼代理開發功能外,MetaChain還作為通用人工智能助手的多功能代理系統。對GAIA基準的全面評估顯示了MetaChain在通用多代理任務中的有效性,超越了現有的最先進方法。此外,MetaChain的檢索增強生成(RAG)相關功能相對於許多其他基於LLM的解決方案表現出一貫優越的性能。
最近的進展已確立擴散Transformer(DiTs)作為生成建模中的主要框架。在此成功基礎上,Lumina-Next通過Next-DiT在生成逼真圖像方面取得卓越表現。然而,其在視頻生成方面的潛力仍大部分未被開發,面臨著在建模視頻數據固有的時空複雜性方面的重大挑戰。為解決這一問題,我們引入了Lumina-Video,該框架利用Next-DiT的優勢,同時為視頻合成引入了量身定制的解決方案。Lumina-Video採用了多尺度Next-DiT架構,共同學習多個補丁化,以增強效率和靈活性。通過將運動分數作為顯式條件,Lumina-Video還實現了對生成視頻動態程度的直接控制。結合逐步訓練方案,逐漸提高分辨率和FPS,以及多源訓練方案,混合自然和合成數據,Lumina-Video在高訓練和推斷效率下實現了卓越的美學質量和運動平滑度。此外,我們還提出了基於Next-DiT的視頻到音頻模型Lumina-V2A,為生成的視頻創建同步音效。代碼已在https://www.github.com/Alpha-VLLM/Lumina-Video上發布。
目前的無編碼視覺語言模型(VLMs)正迅速縮小與基於編碼器的對應物之間的性能差距,凸顯統一多模式系統具有結構簡單性和高效部署潛力。我們系統性地澄清了使用預訓練視覺編碼器、離散分詞器和從頭開始的極簡視覺層的VLMs之間的性能差距,深入挖掘了未受關注的無編碼VLMs的特徵。我們為無編碼VLMs開發了高效策略,可與主流基於編碼器的模型媲美。經過深入研究,我們推出了EVEv2.0,這是一個新且改進的無編碼VLMs系列。我們指出:(i)在統一模型中適當分解並分層關聯視覺和語言可減少模態之間的干擾。(ii)一個設計良好的訓練策略可實現對無編碼VLMs的有效優化。通過廣泛評估,我們的EVEv2.0代表了一項深入研究,以開發跨模式的僅解碼器架構,展示出優越的數據效率和強大的視覺推理能力。代碼可在以下網址公開獲取:https://github.com/baaivision/EVE。
無分類器引導(CFG)是改善擴散模型中條件生成的關鍵技術,可在提高樣本質量的同時實現更準確的控制。將此技術擴展到視頻擴散是合乎自然的,該方法生成視頻時會根據不同數量的上下文幀(統稱為歷史)。然而,我們發現在具有可變長度歷史的引導中存在兩個關鍵挑戰:僅支持固定大小條件的架構,以及CFG風格歷史丟棄的實證觀察表現不佳。為了解決這個問題,我們提出了擴散強制變換器(DFoT),這是一種視頻擴散架構和理論基礎訓練目標,共同實現對可變數量歷史幀的條件生成。然後,我們介紹了歷史引導,這是一系列由DFoT獨特啟用的引導方法。我們展示了它最簡單的形式,即普通歷史引導,已經顯著提高了視頻生成質量和時間一致性。更先進的方法,跨時間和頻率的歷史引導進一步增強了運動動態,實現了對分布外歷史的組成泛化,並能夠穩定地展開極長的視頻。網站:https://boyuan.space/history-guidance
大型視覺語言模型(LVLMs)能夠有效地推理文本和視覺輸入,但它們往往會產生在語法上連貫但在視覺上無依據的內容。本文通過檢視生成過程中的標記logits排名,探究幻覺的內部動態,揭示了LVLMs處理信息的三個關鍵模式:(1)逐漸失去視覺信息 - 在生成過程中,具有視覺依據的標記逐漸變得不被偏好,以及(2)早期激發 - 在各層中,具有語義意義的標記比最終層更早達到峰值激活。 (3)隱藏的真實信息 - 具有視覺依據的標記雖然最終未被選擇,但在推論時仍保持相對較高的排名。基於這些見解,我們提出了VISTA(使用標記logit增強的視覺信息引導),這是一個無需訓練的推論時干預框架,可減少幻覺並促進真實信息。VISTA通過結合兩種互補方法來工作:在激活空間中強化視覺信息,並利用早期層的激活來促進具有語義意義的解碼。與現有方法相比,VISTA無需外部監督,適用於各種解碼策略。大量實驗表明,VISTA平均可將評估的開放式生成任務中的幻覺減少約40%,並且在三種解碼策略下,它在四個基準測試中始絈優於現有方法。
在圖像合成方面,定制生成已取得顯著進展,然而個性化視頻生成仍然具有挑戰性,因為存在時間不一致性和質量降級問題。本文介紹了CustomVideoX,一個創新的框架,利用視頻擴散變換器從參考圖像生成個性化視頻。CustomVideoX利用預訓練視頻網絡,僅通過訓練LoRA參數來提取參考特徵,確保效率和適應性。為了促進參考圖像和視頻內容之間的無縫互動,我們提出了3D參考注意力,實現參考圖像特徵與所有視頻幀在空間和時間維度上的直接和同時互動。為了在推斷過程中減輕參考圖像特徵和文本引導對生成的視頻內容產生過多影響,我們實現了時間感知參考注意力偏差(TAB)策略,動態調節不同時間步驟上的參考偏差。此外,我們引入了實體區域感知增強(ERAE)模塊,通過調整注意力偏差,將關鍵實體標記的高度激活區域與參考特徵注入對齊。為了全面評估個性化視頻生成,我們建立了一個新的基準測試集VideoBench,包括50多個對象和100個提示,進行廣泛評估。實驗結果表明,CustomVideoX在視頻一致性和質量方面顯著優於現有方法。
儘管擁有合成高保真度影片的潛力,具有3D全注意力的擴散Transformer(DiTs)在推理方面存在昂貴的問題,這是由於注意力計算的複雜性和眾多的採樣步驟所導致的。例如,流行的Open-Sora-Plan模型在生成一個包含29幀的影片時需要超過9分鐘。本文從兩個方面解決了效率問題:1)根據影片數據內部的冗餘性對3D全注意力進行修剪;我們識別了影片數據中3D注意力地圖中普遍存在的瓷磚式重複模式,並提倡一個新的稀疏3D注意力家族,其對於影片幀數具有線性複雜度。2)通過採用現有的多步一致性蒸餾來縮短採樣過程;我們將整個採樣軌跡分成幾個段落,在每個段落內進行一致性蒸餾,以激活少步生成能力。我們進一步設計了一個三階段的訓練流程,將低複雜度的注意力和少步生成能力結合在一起。值得注意的是,我們使用0.1%的預訓練數據,將Open-Sora-Plan-1.2模型轉變為一個高效率模型,對於生成包含29和93幀720p影片的速度提升了7.4倍至7.8倍,並在VBench上僅有輕微的性能折衷。此外,我們展示了我們的方法適用於分佈式推理,當在4個GPU上運行並具有序列並行性時,實現了額外的3.91倍加速。
訓練網頁導航代理程式的主要方法是收集一組熱門網站的人類示範和手寫任務,但現在明顯地人類數據是一個效率低下的資源。我們開發了一個流程,以促進代理程式在互聯網規模上的訓練,而無需費力的人類標註。在第一階段,一個LLM生成了150k個不同網站的任務。在接下來的階段,LLM代理完成任務並生成軌跡。在最後階段,一個LLM審查這些軌跡並評判它們的成功。語言模型與人類標註者競爭,以97%的準確率檢測和過濾有害內容,以89%的速率生成可行的任務,並以82.6%的準確率評判成功的軌跡。通過擴展這個流程,基於Llama 3.1 70B的代理程式解決了150k個網站的16.7%任務。使用我們的流程生成的數據進行訓練與使用人類示範進行訓練具有競爭力。在來自Mind2Web和WebLINX的數據有限的情況下,對於在我們的流程和人類數據混合訓練的代理程式,我們將Step Accuracy提高了高達+89.5%和+122.1%。當使用來自這些基準測試的所有可用人類數據來訓練代理程式時,代理程式無法推廣到各種真實網站,而添加我們的數據可以使其推廣能力提高+149.0%(對於WebLINX)和+156.3%(對於Mind2Web)。代碼將可在以下網址獲得:data-for-agents.github.io。
最近在人類偏好優化方面的最新進展,最初是為大型語言模型(LLMs)開發的,已經顯示出在改善文本到圖像擴散模型方面具有顯著潛力。這些方法旨在學習偏好樣本的分佈,同時將其與不太受歡迎的樣本區分開來。然而,現有的偏好數據集通常在這些分佈之間存在重疊,導致分佈衝突。此外,我們發現輸入提示中包含了與不太受歡迎的圖像無關的信息,限制了去噪網絡準確預測偏好優化方法中的噪聲的能力,這稱為無關提示問題。為了應對這些挑戰,我們提出了雙標題偏好優化(DCPO),這是一種利用兩個不同標題來減輕無關提示的新方法。為了應對分佈衝突,我們引入了Pick-Double Caption數據集,這是Pick-a-Pic v2的修改版本,為偏好和不太受歡迎的圖像提供獨立的標題。我們進一步提出了三種不同的生成不同標題的策略:標題生成、擾動和混合方法。我們的實驗表明,DCPO顯著提高了圖像質量和與提示的相關性,優於多個指標,包括Pickscore、HPSv2.1、GenEval、CLIPscore和ImageReward,在以SD 2.1為骨幹進行微調的情況下,優於Stable Diffusion(SD)2.1、SFT_Chosen、Diffusion-DPO和MaPO。
將文字轉換為3D生成自動化了從文字描述中創建3D內容,這在各個領域中具有轉變性的潛力。然而,現有方法常常難以將生成的內容與人類偏好對齊,限制了它們的應用範圍和靈活性。為了解決這些限制,在本文中,我們提出了DreamDPO,一個基於優化的框架,將人類偏好整合到3D生成過程中,通過直接偏好優化。在實踐中,DreamDPO首先構建成對示例,然後使用獎勵或大型多模型對它們與人類偏好的對齊進行比較,最後通過偏好驅動的損失函數優化3D表示。通過利用成對比較來反映偏好,DreamDPO減少了對精確點對點質量評估的依賴,同時通過偏好引導的優化實現了精細的可控性。實驗表明,DreamDPO取得了競爭性的結果,與現有方法相比提供了更高質量和更可控的3D內容。代碼和模型將開源。
增強內容生成(CAG)技術,包括RAG和ICL,需要有效地結合多個上下文以生成對用戶查詢的回應。將這些上下文直接輸入為序列會在每個請求中重新編碼組合的上下文選擇,從而帶來相當大的計算負擔。為了應對這一問題,我們探索了平行編碼的潛在優勢,獨立地預先計算並緩存每個上下文的KV狀態。這種方法使得在推理過程中可以直接加載緩存的狀態,同時通過在不同上下文之間重複使用位置,實現了對更多上下文的支持。然而,由於注意力分佈的不對齊,直接應用平行編碼導致性能顯著下降。為了實現有效且高效的CAG,我們提出了自適應平行編碼(APE),它引入了共享前綴、注意力溫度和縮放因子,以使平行編碼的分佈與順序編碼對齊。在RAG和ICL任務上的結果表明,APE可以在使用相同輸入時保持98%和93%的順序編碼性能,同時分別比平行編碼優勢高出3.6%和7.9%。它還可以擴展到多次抽樣CAG,有效地平行編碼數百個上下文。效率評估顯示,APE可以通過減少128K長度上下文的28倍預填充時間,實現端到端4.5倍的加速。
Steel-LLM 是一個以中文為中心的語言模型,從頭開發,旨在創建高質量、開源模型,儘管計算資源有限。該項目於 2024 年 3 月推出,旨在在大規模數據集上訓練一個 10 億參數的模型,優先考慮透明度並分享實用見解,以幫助社區中的其他人。訓練過程主要聚焦於中文數據,並包含少量英文數據,填補現有開源語言模型的空白,提供更詳盡和實用的模型構建過程描述。Steel-LLM 在 CEVAL 和 CMMLU 等基準測試中展現了競爭力,優於來自大型機構的早期模型。本文全面總結了該項目的主要貢獻,包括數據收集、模型設計、訓練方法以及沿途遇到的挑戰,為希望開發自己的語言模型的研究人員和從業者提供了寶貴資源。模型檢查點和訓練腳本可在 https://github.com/zhanshijinwat/Steel-LLM 上找到。
推測解碼(SD)通過使用較小的草稿模型來預測多個標記,然後由較大的目標模型並行驗證,加速大型語言模型的推斷。然而,草稿模型的有限容量通常需要基於樹的採樣來提高預測準確性,在每個步驟生成多個候選項。我們確定了這種方法的一個關鍵限制:同一步驟的候選項來自相同的表示,限制了多樣性並降低了整體效果。為了解決這個問題,我們提出了Jakiro,利用專家混合(MoE),其中獨立專家生成多樣的預測,有效地解耦了候選項之間的相關性。此外,我們引入了混合推斷策略,將自回歸解碼用於初始標記,並將並行解碼用於後續階段,並通過特徵中的對比機制增強後者以提高準確性。我們的方法顯著提高了預測準確性,實現了更高的推斷加速。通過對各種模型的廣泛實驗驗證了我們方法的有效性和韌性,確立了在推測解碼中的新 SOTA。我們的代碼可在 https://github.com/haiduo/Jakiro 上找到。
語言條件機器人模型具有潛力使機器人能夠根據自然語言指令執行各種任務。然而,評估其安全性和效能仍具挑戰性,因為測試單一任務可能被表達的各種方式是困難的。目前的基準具有兩個主要限制:它們依賴於有限的人類生成指令集,錯過了許多具挑戰性的情況,並且僅關注任務表現,而不評估安全性,例如避免損壞。為了解決這些缺陷,我們引入了具有具挑戰性且多樣化指令的新評估方法-具體化的紅隊行動(Embodied Red Teaming,ERT)。ERT利用自動化的紅隊行動技術與視覺語言模型(VLMs)生成具有情境基礎的困難指令。實驗結果顯示,最先進的語言條件機器人模型在ERT生成的指令上失敗或表現不安全,凸顯了目前基準在評估現實世界表現和安全性方面的缺陷。代碼和影片可在以下網址找到:https://s-karnik.github.io/embodied-red-team-project-page。
為了發展大型語言模型的穩健安全基準,需要開放、可重現的數據集,以便評估對有害內容的適當拒絕以及對合法科學討論的潛在過度限制。我們提出了一個開源數據集和測試框架,用於評估主要控制物質查詢中的LLM安全機制,分析四個主要模型對系統性變化提示的回應。我們的結果顯示出不同的安全配置文件:Claude-3.5-sonnet展示了最保守的方法,拒絕率為73%,允許率為27%,而Mistral試圖回答100%的查詢。GPT-3.5-turbo表現出中等限制,拒絕率為10%,允許率為90%,而Grok-2則註冊了20%的拒絕率和80%的允許率。測試提示變化策略顯示,從單個提示的85%一致性降至五個變化的65%。這個公開可用的基準使得能夠系統性地評估必要的安全限制與對合法科學探討的潛在過度審查之間的關鍵平衡,同時為衡量AI安全實施進展奠定了基礎。思維鏈分析顯示了安全機制中的潛在弱點,突顯了在不過度限制理想和有效的科學討論的情況下實施穩健保障的複雜性。