每日精選AI研究論文及翻譯
在一般領域語料庫上訓練的大型語言模型(LLMs)在自然語言處理(NLP)任務上展現出卓越的成果。然而,先前的研究表明,使用以特定領域為重點的語料庫訓練的LLMs在專業任務上表現更佳。受到這一重要見解的啟發,我們開發了INDUS,這是一套針對地球科學、生物學、物理學、太陽物理學、行星科學和天文物理學領域量身定制的LLMs套件,並使用從不同數據來源中提取的策劃科學語料庫進行訓練。這套模型包括:(1)使用特定領域詞彙和語料庫訓練的編碼器模型,以應對自然語言理解任務,(2)基於對比學習的通用文本嵌入模型,使用從多個來源提取的多樣數據集進行訓練,以應對信息檢索任務,以及(3)使用知識蒸餾技術創建的這些模型的較小版本,以應對具有延遲或資源限制的應用。我們還創建了三個新的科學基準數據集,分別是CLIMATE-CHANGE-NER(實體識別)、NASA-QA(抽取式QA)和NASA-IR(IR),以加速這些跨學科領域的研究。最後,我們展示了我們的模型在這些新任務以及感興趣領域現有基準任務上均優於通用編碼器(RoBERTa)和現有特定領域編碼器(SciBERT)。
在實際應用中,龐大的記憶體消耗一直是部署高吞吐量大型語言模型的主要瓶頸。除了參數數量龐大外,在變壓器架構中用於注意力機制的鍵-值(KV)快取消耗了大量記憶體,特別是對於深度語言模型中層數較多時。本文提出了一種新方法,僅計算並快取少數層的KVs,從而顯著節省記憶體消耗並提高推論吞吐量。我們在大型語言模型上的實驗表明,我們的方法比標準變壓器實現高達26倍的吞吐量,並在語言建模和下游任務中表現出競爭力。此外,我們的方法與現有的變壓器節省記憶體技術正交,因此很容易將它們與我們的模型整合在一起,實現進一步提高推論效率。我們的程式碼可在 https://github.com/whyNLP/LCKV 找到。
了解語言模型在不同規模下的表現變化對於基準和演算法開發至關重要。縮放定律是建立這種理解的一種方法,但需要跨越許多不同規模訓練模型的要求限制了它們的使用。我們提出了一種替代的觀察方法,繞過模型訓練,而是從約80個公開可用模型中建立縮放定律。從多個模型家族中建立單一的縮放定律具有挑戰性,因為它們的訓練計算效率和能力存在很大變化。然而,我們展示這些變化與一個簡單的廣義縮放定律一致,其中語言模型的表現是低維能力空間的函數,而模型家族只在將訓練計算轉換為能力的效率上有所不同。利用這種方法,我們展示了複雜縮放現象的驚人可預測性:我們展示了幾個新興現象遵循平滑的S形行為並且可以從小模型預測;我們展示了諸如GPT-4等模型的代理性能可以從更簡單的非代理基準精確預測;我們展示了如何預測後訓練干預(如思維鏈和自洽性)對語言模型能力持續改進的影響。
先前對於3D場景理解的研究主要發展了針對特定任務的專用模型,或需要任務特定的微調。在本研究中,我們提出了Grounded 3D-LLM,探索3D大型多模型(3D LMMs)的潛力,將各種3D視覺任務統一整合到一個生成框架中。該模型使用場景參照標記作為特殊名詞片語,用於參照3D場景,從而處理交錯使用3D和文本數據的序列。它提供了一種自然的方法,通過任務特定的指令模板將3D視覺任務轉換為語言格式。為了促進在後續語言建模中使用參照標記,我們已經整理了大規模的基於場景的語言數據集,通過引導現有對象標籤,提供了更精細的場景-文本對應。隨後,我們引入了對比語言-場景預訓練(CLASP),以有效利用這些數據,從而將3D視覺與語言模型整合在一起。我們的全面評估涵蓋了像密集標註和3D問答等開放式任務,以及對象檢測和語言對應等封閉式任務。跨多個3D基準測試的實驗顯示了Grounded 3D-LLM的領先性能和廣泛應用性。代碼和數據集將在項目頁面上發布:https://groundedscenellm.github.io/grounded_3d-llm.github.io。
大型語言模型(LLMs)由於廣泛的應用而在自然語言處理(NLP)領域引起了重大關注。然而,為非英語語言訓練LLMs存在著重大挑戰,主要是由於難以獲取大規模語料庫和必要的計算資源。本文提出了ChatFlow,一種基於跨語言轉移的LLM,以成本效益的方式訓練大型中文語言模型來應對這些挑戰。我們採用中文、英文和平行語料庫的混合來持續訓練LLaMA2模型,旨在對齊跨語言表示並促進知識轉移,特別針對中文語言模型。此外,我們使用動態數據取樣器逐漸將模型從無監督預訓練過渡到監督微調。實驗結果表明,我們的方法加速了模型收斂並取得了優異的性能。我們在流行的中文和英文基準上評估了ChatFlow,結果表明它優於其他在LLaMA-2-7B上後訓練的中文模型。