每日精選AI研究論文及翻譯
訓練大型語言模型(LLMs)存在著重大的記憶挑戰,主要是由於權重和優化器狀態的增加導致的。常見的記憶減少方法,如低秩適應(LoRA),在每一層中將一個可訓練的低秩矩陣添加到凍結的預訓練權重中,減少可訓練參數和優化器狀態。然而,這些方法通常在預訓練和微調階段的訓練中表現不佳,因為它們將參數搜索限制在低秩子空間並改變訓練動態,進一步可能需要完整秩的熱啟動。在這項工作中,我們提出了梯度低秩投影(GaLore),這是一種訓練策略,允許完全參數學習,但比LoRA等常見的低秩適應方法更節省記憶體。我們的方法在優化器狀態中將記憶體使用量降低了高達65.5%,同時在使用C4數據集的LLaMA 1B和7B架構進行預訓練以及在GLUE任務上對RoBERTa進行微調時,保持了效率和性能。我們的8位GaLore進一步將優化器記憶體降低了高達82.5%,總訓練記憶體降低了63.3%,與BF16基線相比。值得注意的是,我們首次展示了在具有24GB記憶體的消費級GPU(例如NVIDIA RTX 4090)上,無需模型並行、檢查點或卸載策略即可進行7B模型的預訓練的可行性。
本文介紹了SaulLM-7B,一個針對法律領域量身定制的大型語言模型(LLM)。擁有70億個參數的SaulLM-7B是第一個專門設計用於法律文本理解和生成的LLM。作為其基礎,SaulLM-7B利用Mistral 7B架構進行訓練,該模型是在英文法律語料庫中訓練的,該語料庫包含超過300億個標記。SaulLM-7B在理解和處理法律文件方面展現了最先進的能力。此外,我們提出了一種新穎的指導微調方法,利用法律數據集進一步提升SaulLM-7B在法律任務中的性能。SaulLM-7B釋出在CC-BY-SA-4.0許可下。
隨著大型語言模型(LLMs)在性能上不斷進步,其規模已顯著擴大,目前的LLMs包含數十億甚至數萬億個參數。然而,在這項研究中,我們發現許多LLMs的層之間存在高度相似性,並且一些層在網絡功能中起到微不足道的作用。基於這一觀察,我們定義了一個稱為區塊影響(BI)的指標,以評估LLMs中每個層的重要性。然後,我們提出了一種直接修剪方法:層刪除,通過根據其BI分數直接刪除LLMs中的冗餘層。實驗表明,我們稱之為ShortGPT的方法在模型修剪方面顯著優於先前的最新方法。此外,ShortGPT與量化等方法正交,可以進一步減少參數和計算量。通過簡單的層刪除來取得更好的結果,而不是更複雜的修剪技術,這表明模型架構中存在高度冗餘。
本文介紹了PixArt-\Sigma,一種Diffusion Transformer模型(DiT),能夠直接生成4K解析度的圖像。PixArt-\Sigma相較於其前身PixArt-\alpha,代表了一個重大的進步,提供了品質明顯更高且與文本提示更好對齊的圖像。PixArt-\Sigma的一個關鍵特點是其訓練效率。利用PixArt-\alpha的基礎預訓練,通過納入更高質量的數據,我們將其從“較弱”的基準發展為“較強”的模型,這一過程我們稱之為“弱到強訓練”。PixArt-\Sigma的進步有兩方面:(1)高質量訓練數據:PixArt-\Sigma納入了優質的圖像數據,配以更精確和詳細的圖像標題。(2)高效Token壓縮:我們在DiT框架中提出了一個新穎的注意力模塊,可以壓縮鍵和值,顯著提高效率並促進超高解析度圖像生成。由於這些改進,PixArt-\Sigma實現了優越的圖像品質和用戶提示遵循能力,並且比現有的文本到圖像擴散模型(如SDXL(2.6B參數)和SD Cascade(5.1B參數))具有明顯更小的模型大小(0.6B參數)。此外,PixArt-\Sigma生成4K圖像的能力支持高解析度海報和桌布的創建,有效地促進了在電影和遊戲等行業中高質量視覺內容的生產。
我們提出了一種方法,通過在標記級別交替生成,教導多個大型語言模型(LLM)進行協作。我們將決定哪個LLM生成下一個標記的過程建模為潛在變量。通過在我們的潛在變量模型下優化訓練集的邊際概率,基本LLM自動學習何時生成自身以及何時呼叫其中一個“助手”語言模型進行生成,而無需直接監督。在解碼期間進行標記級別的協作允許以符合特定任務的方式融合每個模型的專業知識。我們的協作解碼在跨領域設置中特別有用,其中一個通用基礎LLM學習調用領域專家模型。在遵循指示、特定領域的問答和推理任務中,我們展示聯合系統的性能優於個別模型。通過對學習的潛在決策進行定性分析,我們展示用我們的方法訓練的模型表現出幾種有趣的協作模式,例如模板填充。我們的代碼可在https://github.com/clinicalml/co-llm找到。
我們提出了一種名為「具強監督的截圖預訓練(S4)」的新穎預訓練範式,用於視覺語言模型,利用大規模網頁截圖渲染的數據。使用網頁截圖可以開啟一個視覺和文本線索的寶庫,這些線索在使用圖像文本對時並不存在。在S4中,我們利用HTML元素的固有樹狀結構層次和空間定位,精心設計了10個具有大規模標註數據的預訓練任務。這些任務類似於不同領域的下游任務,而且標註成本低廉。我們證明,與當前截圖預訓練目標相比,我們創新的預訓練方法顯著提升了圖像到文本模型在九個不同且熱門的下游任務中的表現 - 在表格檢測方面提高了高達76.1%,在小部件標題方面至少提高了1%。
價值函數是深度強化學習(RL)的核心組件。這些函數由神經網絡參數化,通過使用均方誤差回歸目標來訓練,以匹配自丁式目標值。然而,對於使用回歸的基於值的RL方法來說,將其擴展到大型網絡,例如高容量的Transformer,已被證明具有挑戰性。這種困難與監督學習形成鮮明對比:通過利用交叉熵分類損失,監督方法已經可靠地擴展到大型網絡。觀察到這種差異,在本文中,我們探討了通過在訓練價值函數時使用分類而不是回歸是否也可以改善深度RL的可擴展性。我們展示,使用分類交叉熵訓練的價值函數顯著改善了各種領域的性能和可擴展性。這些領域包括:使用SoftMoEs在Atari 2600遊戲上的單任務RL、在Atari上使用大規模ResNets的多任務RL、使用Q-transformers進行機器人操作、無需搜索即可下棋、以及使用高容量Transformer進行語言代理Wordle任務,在這些領域取得了最先進的結果。通過仔細分析,我們表明分類交叉熵的好處主要來自於其減輕基於值的RL固有問題的能力,例如嘈雜的目標和非穩定性。總的來說,我們認為,僅通過將訓練價值函數的方法從回歸轉為使用分類交叉熵,就可以在幾乎不增加成本的情況下顯著改善深度RL的可擴展性。
大規模序列建模已引發快速進展,現在已延伸至生物學和基因組學領域。然而,建模基因組序列帶來挑戰,例如需要建模長程令牌交互作用、基因組上游和下游區域的影響,以及DNA的反向互補性(RC)。在這裡,我們提出了一種受到這些挑戰激勵的架構,該架構基於長程Mamba塊構建,並將其擴展為支持雙向性的BiMamba組件,以及支持RC等變換的MambaDNA塊。我們將MambaDNA作為Caduceus的基礎,這是第一個具有RC等變換性和雙向性的長程DNA語言模型系列,並且我們介紹了預訓練和微調策略,這些策略產生了Caduceus DNA基礎模型。Caduceus在下游基準測試中優於先前的長程模型;在一個具有挑戰性的長程變體效應預測任務中,Caduceus的表現超過了不利用雙向性或等變換性的規模大10倍的模型。
模仿學為教導機器人熟練技能提供了一種有效的方法;然而,學習複雜技能並實現魯棒性和泛化性通常需要大量的人類示範。為應對這一具有挑戰性的問題,我們提出了3D擴散策略(DP3),這是一種新穎的視覺模仿學方法,將3D視覺表示的威力融入擴散策略中,這是一類條件動作生成模型。DP3的核心設計在於利用從稀疏點雲中提取的緊湊3D視覺表示,並使用高效的點編碼器。在我們的實驗中,涉及72個模擬任務,DP3僅通過10個示範就成功處理了大多數任務,並且相對於基準線有了55.3%的相對改進。在4個真實機器人任務中,DP3僅通過每個任務40個示範就展示出高成功率達85%的精確控制,並且在空間、視角、外觀和實例等各個方面展現出卓越的泛化能力。有趣的是,在真實機器人實驗中,DP3很少違反安全要求,而基準方法則經常需要人類干預。我們的廣泛評估突顯了3D表示在現實世界機器人學習中的關鍵重要性。視頻、代碼和數據可在https://3d-diffusion-policy.github.io 上獲得。
許多線上內容門戶允許用戶提問以補充他們的理解(例如,對講座的理解)。儘管信息檢索(IR)系統可能為此類用戶查詢提供答案,但它們並不直接幫助內容創作者——例如希望改進內容的講師——識別引發用戶提問的段落。我們引入了回溯任務,其中系統檢索最有可能引發用戶查詢的文本段落。我們對三個現實世界領域進行了形式化,這些領域中回溯對於改進內容傳遞和溝通至關重要:理解講座領域中學生困惑的原因、新聞文章領域中讀者好奇心的原因,以及對話領域中用戶情感的原因。我們評估了流行的信息檢索方法和語言建模方法的零-shot表現,包括雙編碼器、重新排序和基於概率的方法以及ChatGPT。儘管傳統的IR系統檢索語義相關信息(例如,對於查詢“多次投影是否仍然會導致相同點”的“投影矩陣”細節),但它們通常會遺漏因果相關的上下文(例如,講師表示“投影兩次得到的答案與一次投影相同”)。我們的結果顯示,在回溯方面還有改進的空間,並需要新的檢索方法。我們希望我們的基準測試有助於改進未來的回溯檢索系統,從而產生能夠完善內容生成並識別影響用戶查詢的語言觸發的系統。我們的代碼和數據是開源的:https://github.com/rosewang2008/backtracing。