每日精選AI研究論文及翻譯
我們介紹了 Qwen2.5-1M 系列模型,將上下文長度擴展至 1 百萬個標記。與之前的 128K 版本相比,Qwen2.5-1M 系列通過長上下文預訓練和後訓練顯著增強了長上下文能力。採用了長數據合成、漸進式預訓練和多階段監督微調等關鍵技術,有效提升了長上下文性能同時降低了訓練成本。 為了推廣長上下文模型在更廣泛的用戶群中的應用,我們提出並開源了我們的推理框架。該框架包括一種長度外推方法,可以將模型上下文長度至少擴展四倍,甚至更多,而無需額外訓練。為了降低推理成本,我們實現了稀疏注意力方法,以及用於部署場景的分塊預填充優化和用於提高精度的稀疏度優化方法。此外,我們詳細介紹了推理引擎中的優化,包括核心優化、管道並行性和調度優化,顯著提升了整體推理性能。通過利用我們的推理框架,Qwen2.5-1M 模型在包含 1 百萬個上下文標記的場景中實現了顯著的 3 到 7 倍的預填充加速。該框架為使用開源模型進行長上下文處理的應用程序開發提供了高效且強大的解決方案。 Qwen2.5-1M 系列目前包括開源模型 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,以及 API 訪問模型 Qwen2.5-Turbo。評估顯示,Qwen2.5-1M 模型在長上下文任務中有了很大的改進,而在短上下文場景中性能沒有受到損害。具體來說,Qwen2.5-14B-Instruct-1M 模型在長上下文任務中顯著優於 GPT-4o-mini,並支持長度為其八倍的上下文。
我們介紹了Baichuan-Omni-1.5,這是一個全模態模型,不僅具有全模態理解能力,還提供端到端的音頻生成能力。為了實現跨模態的流暢高質互動,同時不影響任何模態的能力,我們優化了三個關鍵方面。首先,我們為多模態數據建立了全面的數據清理和合成管道,獲得約500B的高質量數據(文本、音頻和視覺)。其次,我們設計了一個音頻分詞器(Baichuan-Audio-Tokenizer),用於從音頻中捕獲語義和聲學信息,實現與MLLM的無縫集成和增強兼容性。最後,我們設計了一種多階段訓練策略,逐步整合多模態對齊和多任務微調,確保各模態之間有效協同作用。Baichuan-Omni-1.5在全模態能力方面領先當代模型(包括GPT4o-mini和MiniCPM-o 2.6)。值得注意的是,它在各種多模態醫學基準測試中取得了與領先模型(如Qwen2-VL-72B)可比擬的結果。
強化學習(RL)承諾提供一個幾乎通用的問題解決框架。然而,在實踐中,RL算法通常會針對特定基準進行調整,依賴精心調整的超參數和算法選擇。最近,強大的基於模型的RL方法展現了令人印象深刻的通用結果,但代價是增加了複雜性和運行時間,限制了它們的廣泛應用。在本文中,我們試圖找到一種統一的無模型深度RL算法,可以應對各種領域和問題設置。為了實現這一目標,我們利用基於模型的表示,大致線性化價值函數,利用基於模型的RL使用的更密集的任務目標,同時避免與規劃或模擬軌跡相關的成本。我們對我們的算法 MR.Q 在各種常見的RL基準測試中進行評估,使用一組超參數,並展示了與特定領域和通用基準的競爭性表現,為構建通用無模型深度RL算法邁出了具體的一步。
眾所周知,在多頭架構中,混合二次和次二次注意力模型已經超越了Transformer和線性RNN模型,這些工作主要集中在減少KV複雜度並提高效率。為了進一步研究表達能力,我們介紹了一系列從Qwen 2.5提煉出的模型,基於純本地RWKV-7注意力,旨在使RNN更具表達力,展示超越Transformer的狀態追踪能力。我們使用基於RWKV-6架構的QRWK 32B進行研究,這是另一種方法,將整個知識處理時間縮短為僅8小時,使用16個AMD MI300X GPU,同時保持Qwen 2.5的性能。事實上,提煉過程可以利用任何LLM,而不僅僅是Qwen,並且可以實現從更大的LLM向較小的LLM進行知識轉移,並使用更少的標記。我們將解釋詳細的過程,並分享我們在構建更強大基礎模型方面的見解。請注意,這是一項持續進行的工作,將不斷更新。模型檢查點和源代碼可在以下鏈接找到:https://github.com/yynil/RWKVInside,https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1。
最近在語音生成方面的進展主要是由大規模訓練數據集推動的。然而,目前的模型在捕捉真實世界人類語音中固有的 spontaneity 和 variability 方面仍有不足,這是因為它們依賴於僅限於正式朗讀語音風格的有聲書數據集。為了彌補這一差距,我們引入了 Emilia-Pipe,這是一個開源的預處理流程,從珍貴但尚未被充分探索的野外數據中提取高質量的訓練數據,這些數據捕捉了真實世界情境中的 spontaneity 人類語音。通過利用 Emilia-Pipe,我們構建了 Emilia,這是第一個從野外語音數據中衍生的多語種語音生成數據集。該數據集包含六種語言的超過 101,000 小時的語音:英語、中文、德語、法語、日語和韓語。此外,我們將 Emilia 擴展為 Emilia-Large,這是一個超過 216,000 小時的數據集,使其成為目前最大的開源語音生成數據集。大量實驗表明,Emilia 在生成 spontaneity 和人類般語音方面顯著優於傳統的有聲書數據集,展示了在捕捉真實世界人類語音的多樣說話者音色和風格方面的卓越性能。此外,這項工作強調了擴大數據集大小對於推進語音生成研究的重要性,並驗證了 Emilia 在多語種和跨語種語音生成方面的有效性。
我們提出了一個名為 iFormer 的新型移動混合視覺網絡家族,專注於優化移動應用程式的延遲和準確性。iFormer有效地將卷積的快速局部表示能力與自注意力的高效全局建模能力相結合。局部交互是從轉換標準卷積網絡 ConvNeXt 衍生而來,以設計一個更輕量級的移動網絡。我們新引入的移動調製注意力消除了 MHA 中的佔用內存的操作,並採用了一種高效的調製機制來增強動態全局表示能力。我們進行了全面的實驗,證明了 iFormer 在各種任務中優於現有的輕量級網絡。值得注意的是,iFormer 在 ImageNet-1k 上實現了令人印象深刻的 80.4\% Top-1 準確性,僅在 iPhone 13 上以 1.10 毫秒的延遲,超越了最近提出的 MobileNetV4 在相似延遲約束下的表現。此外,我們的方法在下游任務中顯示出顯著的改進,包括 COCO 物體檢測、實例分割和 ADE20k 語義分割,同時在這些情境中為移動設備上的高分辨率輸入保持低延遲。
擴展語言模型的容量一直被證實是提高性能和開啟新功能的可靠方法。容量主要由兩個維度來定義:模型參數的數量和每個示例的計算。雖然擴展通常涉及增加兩者,但這些因素之間的精確相互作用及它們對整體容量的組合貢獻仍未完全理解。我們在稀疏的專家混合(MoEs)的背景下探討這種關係,這種方法允許擴展模型參數的數量而不成比例地增加每個示例的 FLOPs。我們研究了不同稀疏程度(即非活躍參數的比例)如何影響模型在預訓練和下游少樣本評估期間的性能。我們發現在不同的限制條件下(例如參數大小和總訓練計算量),存在一個最佳稀疏水平,可以提高訓練效率和模型性能。這些結果更好地理解了稀疏對MoEs的擴展規律的影響,並補充了這一領域現有的研究,為設計更有效率的架構提供了見解。
擴展測試時間計算是提升語言模型能力的一個有潛力的方向。然而,測試時間計算可以通過多種方式進行擴展,有效地結合不同方法仍然是一個活躍的研究領域。在這裡,我們在解決來自SWE-bench數據集的真實世界GitHub問題的背景下探討這個問題。我們的系統名為CodeMonkeys,允許模型通過同時生成和運行測試腳本來迭代編輯代碼庫。我們對每個問題採樣許多這些多輪軌跡,以生成一組候選編輯。這種方法讓我們通過增加每個軌跡的迭代次數來擴展“串行”測試時間計算,通過增加每個問題的軌跡數量來擴展“並行”測試時間計算。通過並行擴展,我們可以在多個下游樣本中攤提前成本,從而讓語言模型通過讀取每個文件來識別相關的代碼庫上下文。為了從候選編輯中進行選擇,我們結合使用模型生成的測試進行投票,並專門用於選擇的最終多輪軌跡。總的來說,CodeMonkeys在使用約2300美元的預算下解決了SWE-bench Verified的57.4%問題。我們的選擇方法也可以用於從不同來源組合候選編輯。從現有頂尖SWE-bench Verified提交的編輯集合中進行選擇,獲得了66.2%的分數,並且在自身上表現優於該集合的最佳成員。我們完全公開了我們的代碼和數據,網址為https://scalingintelligence.stanford.edu/pubs/codemonkeys。
視覺語言模型(VLMs)在短短幾年內徹底改變了計算機視覺模型的格局,開創了一系列新的應用,從零樣本圖像分類,到圖像標題生成,以及視覺問答等。與純視覺模型不同,它們提供了一種直觀的方式通過語言提示來訪問視覺內容。這些模型的廣泛應用性鼓勵我們探討它們是否也與人類視覺相符 - 具體來說,它們在多模態融合中如何採納人為誘導的視覺偏見,或者它們是否僅是從純視覺模型中繼承偏見。一個重要的視覺偏見是紋理與形狀偏見,或者局部信息的優勢與全局信息之間的占主導地位。在本文中,我們研究了這種偏見在各種熱門VLMs中的表現。有趣的是,我們發現VLMs往往比它們的視覺編碼器更加偏好形狀,這表明視覺偏見在某種程度上通過文本在多模態模型中被調節。如果文本確實影響視覺偏見,這表明我們可能不僅可以通過視覺輸入來引導視覺偏見,還可以通過語言來引導:這一假設我們通過大量實驗得到了證實。例如,我們能夠僅通過提示將形狀偏見從低至49%引導至高達72%。目前,對形狀的強烈人類偏見(96%)對於所有測試的VLMs來說仍然難以實現。
狀態空間模型(SSMs)已成為序列建模中與Transformer相比的高效替代方案,但由於無法利用特定於模態的特徵,限制了它們在多模態預訓練中的性能。在這裡,我們提出了Mixture-of-Mamba,一種新穎的SSM架構,通過對Mamba塊進行特定於模態的參數化,引入模態感知的稀疏性。在Mixture-of-Transformers(W. Liang等人 arXiv:2411.04996; 2024)的基礎上,我們將模態感知的稀疏性優勢擴展到SSMs,同時保留其計算效率。我們在三個多模態預訓練設置中評估了Mixture-of-Mamba:Transfusion(交錯文本和連續圖像標記與擴散損失)、Chameleon(交錯文本和離散圖像標記)以及包含語音的擴展三模態框架。Mixture-of-Mamba在早期訓練步驟中始終達到相同的損失值,並顯著降低了計算成本。在Transfusion設置中,Mixture-of-Mamba在1.4B規模下僅使用34.76%的訓練FLOPs即實現了等效的圖像損失。在Chameleon設置中,Mixture-of-Mamba在1.4B規模下僅使用42.50%的FLOPs即達到相似的圖像損失,並在僅使用65.40%的FLOPs時達到相似的文本損失。在三模態設置中,MoM在1.4B規模下僅使用24.80%的FLOPs即達到語音損失。我們的消融研究突出了投影組件解耦的協同效應,聯合解耦產生的增益大於單獨修改。這些結果將模態感知的稀疏性確立為一種多功能且有效的設計原則,將其影響從Transformers擴展到SSMs,並在多模態預訓練中設立新的基準。我們的代碼可在https://github.com/Weixin-Liang/Mixture-of-Mamba中訪問。
在各種視覺生成模型中,無分類器引導(Classifier-Free Guidance,CFG)一直是一種默認技術,但在抽樣過程中需要從有條件和無條件模型進行推理。我們提出建立無引導抽樣的視覺模型。所得到的算法,即無引導訓練(Guidance-Free Training,GFT),在將抽樣減少到單一模型的同時,與CFG的性能相匹配,將計算成本減半。與依賴預訓練的CFG網絡的先前蒸餾方法不同,GFT使得可以直接從頭開始進行訓練。GFT實施簡單。它保留了與CFG相同的最大似然目標,主要區別在於有條件模型的參數化。實施GFT只需要對現有代碼進行最小的修改,因為大多數設計選擇和超參數都是直接從CFG繼承而來。我們在五種不同的視覺模型上進行了大量實驗,展示了GFT的有效性和多功能性。在擴散、自回歸和遮罩預測建模領域,GFT始終實現了與CFG基準相當甚至更低的FID分數,並在無引導的情況下實現了類似的多樣性-保真度折衷。代碼將在https://github.com/thu-ml/GFT 上提供。
在大型語言模型(LLMs)中可定制的角色扮演,也被稱為角色泛化,因其在開發和部署角色扮演對話代理時的多功能性和成本效益而受到越來越多的關注。本研究探索了一種大規模數據合成方法,以賦予LLMs角色泛化能力。我們首先使用Persona Hub 中的角色概要合成大規模角色概要,然後探索兩種策略:回應重寫和回應生成,以創建與角色對齊的指導回應。為了驗證我們的合成指導數據對角色泛化的有效性,我們使用LLaMA-3 8B模型進行監督微調(SFT)。我們表現最佳的模型加強了原始的LLaMA-3 8B Instruct 模型,在角色扮演對話方面實現了與GPT-4o模型相當的性能。我們釋放我們的合成角色和指導調整對話,以支持公共研究。
大型僅解碼語言模型的主導地位已經使編碼器-解碼器架構黯然失色,儘管在序列處理方面具有基本的效率優勢。對於小型語言模型(SLMs)- 即具有10億個參數或更少的模型 - 我們在GPU、CPU和NPU平台上的系統分析顯示,與邊緣設備上的僅解碼模型相比,編碼器-解碼器架構實現了47%更低的首令牌延遲和4.7倍的吞吐量。這些收益可以歸因於編碼器-解碼器的一次性輸入處理和理解與生成階段的有效分離。 我們引入了一個新穎的知識蒸餾框架,使編碼器-解碼器模型能夠利用來自大型可擴展僅解碼教師的能力,同時保留其架構優勢,在各種任務中實現高達6個平均性能點的改進,尤其在輸入和輸出分佈可以從不同處理方法中受益的非對稱序列任務中獲得顯著收益。 當與現代先進技術(如旋轉位置嵌入(RoPE)和視覺編碼器)結合時,我們的系統調查表明,編碼器-解碼器架構提供了一條更實用的道路,以在資源受限環境中部署功能強大的語言模型。我們的研究結果挑戰了僅解碼模型擴展的普遍趨勢,顯示隨著參數預算的減少,尤其是對於需要計算效率至關重要的設備和邊緣部署,架構選擇變得越來越重要。
我們介紹可行學習(Feasible Learning, FL),一種以樣本為中心的學習範式,通過解決一個界定每個訓練樣本損失的可行性問題來訓練模型。與普遍存在的經驗風險最小化(Empirical Risk Minimization, ERM)框架相比,後者優化平均性能,而FL要求在每個單獨的數據點上達到令人滿意的性能。由於符合指定性能閾值的任何模型都是有效的FL解決方案,優化算法的選擇及其動態在塑造結果解的性質方面起著至關重要的作用。具體而言,我們研究了一種原始-對偶方法,該方法在訓練過程中動態重新加權每個樣本的重要性。為應對在實踐中設定有意義閾值的挑戰,我們引入了一種FL的放寬版本,其中包含最小範數的松弛變量。我們的實證分析涵蓋了圖像分類、年齡回歸以及大型語言模型中的偏好優化,結果表明,通過FL訓練的模型可以從數據中學習,同時在尾部行為方面優於ERM,對平均性能僅有輕微影響。