TÜLU 3:拓展開放式語言模型後訓練的前沿TÜLU 3: Pushing Frontiers in Open Language Model Post-Training
語言模型事後訓練被應用來精煉行為並開啟新技能,涵蓋了廣泛的最新語言模型,但開放的應用指南仍遠遠落後於專有的方法。事後訓練的基礎訓練數據和指南同時是謎題中最重要的部分,也是最不透明的部分。為了彌合這一差距,我們推出 T\"ULU 3,這是一個全面開放的最先進的事後訓練模型系列,連同其數據、代碼和訓練指南,作為現代事後訓練技術的全面指南。T\"ULU 3 基於 Llama 3.1 基礎模型,取得了超越 Llama 3.1、Qwen 2.5、Mistral 甚至閉源模型如 GPT-4o-mini 和 Claude 3.5-Haiku 的結果。我們模型的訓練算法包括監督微調(SFT)、直接偏好優化(DPO)以及我們稱之為具有可驗證獎勵的強化學習方法(RLVR)。通過 T\"ULU 3,我們引入了一種多任務評估方案,用於事後訓練指南的開發和未見過的評估,標準基準實現,以及對所述基準上現有開放數據集的大幅凈化。我們最後對未能可靠提升性能的訓練方法進行了分析和討論。 除了 T\"ULU 3 模型權重和演示之外,我們還發布了完整的指南,其中包括多樣核心技能的數據集、用於數據整理和評估的強大工具包,訓練代碼和基礎設施,最重要的是,一份詳細報告,用於重現並進一步適應 T\"ULU 3 方法以擴展到更多領域。