每日精選AI研究論文及翻譯
大型語言模型的可重現性和透明度對於推動開放研究、確保結果的可信度以及進行數據和模型偏見以及潛在風險的調查至關重要。為此,我們發布了OpenELM,這是一個最先進的開放式語言模型。OpenELM採用了一種逐層縮放策略,以有效地分配轉換器模型每一層中的參數,從而提高準確性。例如,當參數預算約為十億個參數時,OpenELM的準確性比OLMo提高了2.36%,同時需要的預訓練標記數量少了2倍。 與先前僅提供模型權重和推理代碼並在私有數據集上進行預訓練的做法不同,我們的發布包括了在公開可用數據集上訓練和評估語言模型的完整框架,包括訓練日誌、多個檢查點和預訓練配置。我們還發布了將模型轉換為MLX庫進行推理和在蘋果設備上進行微調的代碼。這一全面的發布旨在賦予和加強開放研究社區的能力,為未來的開放研究努力鋪平道路。 我們的源代碼以及預先訓練的模型權重和訓練配方可在https://github.com/apple/corenet 上找到。此外,\model 模型可以在HuggingFace上找到:https://huggingface.co/apple/OpenELM。
稀疏專家混合(SMoE)可擴展模型容量,而不會顯著增加訓練和推理成本,但存在以下兩個問題:(1)低專家激活,只有少量專家被激活進行優化。(2)缺乏對個別標記內多個語義概念的細粒度分析能力。我們提出了多頭專家混合(MH-MoE),採用多頭機制將每個標記分成多個子標記。這些子標記然後被分配並且並行地由多個不同的專家處理,然後無縫地重新整合回原始標記形式。多頭機制使模型能夠集體關注來自不同專家內各種表示空間的信息,同時顯著增強專家激活,從而加深上下文理解並減輕過度擬合。此外,我們的MH-MoE實施簡單,並與其他SMoE優化方法解耦,易於與其他SMoE模型集成以提高性能。在三個任務上進行的大量實驗結果:以英語為焦點的語言建模、多語言語言建模和遮罩多模態建模任務,展示了MH-MoE的有效性。
近年來,大規模零樣本語音合成的最新進展顯著受到語言模型和擴散模型的推動。然而,這兩種方法的生成過程速度緩慢且需要大量計算資源。以較低的計算預算實現與先前工作相當質量的高效語音合成仍然是一個重大挑戰。本文介紹了FlashSpeech,一個大規模零樣本語音合成系統,其推理時間約為先前工作的5\%。FlashSpeech基於潛在一致性模型構建,並採用一種新穎的對抗一致性訓練方法,可以從頭開始訓練,無需預先訓練的擴散模型作為教師。此外,一個新的韻律生成器模組增強了韻律的多樣性,使語音的節奏聽起來更加自然。FlashSpeech的生成過程可以在一兩個採樣步驟內高效完成,同時保持高音質並與零樣本語音生成的音頻提示具有高相似性。我們的實驗結果展示了FlashSpeech的優越性能。值得注意的是,FlashSpeech在語音質量和相似性方面的表現與其他零樣本語音合成系統相比,速度大約快了20倍。此外,FlashSpeech通過高效執行語音轉換、語音編輯和多樣語音採樣等任務展示了其多功能性。可在https://flashspeech.github.io/找到音頻樣本。
本技術報告介紹了Pegasus-1,這是一個專注於視頻內容理解和通過自然語言進行互動的多模式語言模型。Pegasus-1的設計旨在應對視頻數據帶來的獨特挑戰,例如解釋時空信息,以提供跨不同長度的細緻視頻內容理解。本技術報告概述了Pegasus-1的架構、訓練策略,以及在視頻對話、零樣本視頻問答和視頻摘要等基準測試中的表現。我們還探討了Pegasus-1的定性特徵,展示其能力以及局限性,以便為讀者提供對其當前狀態和未來方向的平衡觀點。
大型語言模型(LLMs)在處理廣泛上下文方面取得了顯著進展,其中關鍵-值(KV)緩存在增強其性能方面發揮了至關重要的作用。然而,為應對輸入長度增加而增長的KV緩存對內存和時間效率提出了挑戰。為解決這個問題,本文介紹了SnapKV,這是一種創新且無需微調的方法,可以在保持在實際應用中可比性能的同時有效地最小化KV緩存大小。 我們發現模型中的每個注意力頭在生成過程中始終專注於特定提示注意力特徵。與此同時,這種穩健的模式可以從位於提示末尾的“觀察”窗口中獲得。基於這一見解,SnapKV通過為每個注意力頭選擇聚類重要的KV位置,自動壓縮KV緩存。我們的方法在處理長輸入序列時顯著降低了不斷增長的計算開銷和內存佔用。具體而言,SnapKV在處理16K令牌的輸入時實現了一致的解碼速度,生成速度提高了3.6倍,內存效率提高了8.2倍,與基準模型相比性能保持可比。此外,SnapKV可以在單個A100-80GB GPU上處理高達380K上下文令牌,使用HuggingFace實現僅需進行輕微更改,在“針芥堆中的針”測試中僅表現出微不足道的準確性下降。進一步的全面研究表明SnapKV在實際應用中具有潛力。
擴散模型(DMs)已在視覺領域及其他領域確立自己作為最先進的生成建模方法。DMs的一個關鍵缺點是它們的抽樣速度較慢,依賴於通過大型神經網絡進行許多連續函數評估。從DMs中抽樣可以被視為通過一個稱為抽樣時間表的離散化噪聲級別集解決微分方程。過去的研究主要集中在導出高效求解器上,但很少關注尋找最佳抽樣時間表,整個文獻都依賴於手工設計的啟發式方法。在這項工作中,我們首次提出了一種通用且原則性的方法來優化DMs的抽樣時間表,以獲得高質量的輸出,稱為Align Your Steps。我們利用隨機微積分的方法,找到了針對不同求解器、訓練過的DMs和數據集的最佳時間表。我們在幾個圖像、視頻以及2D玩具數據合成基準上評估了我們的新方法,使用各種不同的抽樣器,並觀察到我們優化的時間表在幾乎所有實驗中優於以前手工設計的時間表。我們的方法展示了抽樣時間表優化的潛力,特別是在少步驟合成方案中。
許多現有研究已通過描述計算的正式模型來分析變壓器架構的能力。然而,到目前為止,焦點一直放在以語言接受為術語來分析架構。我們認為這在語言模型(LMs)的研究中是一個不適當的問題,因為它們在定義上是對字符串的概率分佈。在本文中,我們專注於變壓器LM和n-gram LM之間的關係,n-gram LM是一類簡單且具有歷史意義的語言模型。我們展示了使用硬或稀疏注意機制的變壓器LM可以精確表示任何n-gram LM,從而為它們的概率表示能力提供了具體的下限。這是了解變壓器LM可以用來表示字符串概率分佈的機制的第一步。