TÜLU 3: オープン言語モデルの事後トレーニングにおけるフロンティアの拡大TÜLU 3: Pushing Frontiers in Open Language Model Post-Training
言語モデルの事後トレーニングは、広範囲にわたる最新の言語モデルで行動を洗練させ、新しいスキルを開発するために適用されていますが、これらの技術を適用するためのオープンな手順は、プロプライエタリな手法に遅れをとっています。事後トレーニングの基礎となるトレーニングデータや手順は、パズルの中で最も重要な部分でありながら、最も透明性に欠ける部分です。このギャップを埋めるために、私たちはT\"ULU 3を紹介します。これは最新の事後トレーニング技術の包括的なガイドとして、完全にオープンな最先端の事後トレーニングモデルのファミリーであり、そのデータ、コード、トレーニング手順を提供します。T\"ULU 3は、Llama 3.1ベースモデルを基盤としており、Llama 3.1、Qwen 2.5、Mistralなどのinstructバージョン、さらにはGPT-4o-miniやClaude 3.5-Haikuなどのクローズドモデルを凌駕する結果を達成しています。私たちのモデルのトレーニングアルゴリズムには、教師ありファインチューニング(SFT)、直接的な選好最適化(DPO)、およびReinforcement Learning with Verifiable Rewards(RLVR)と呼ばれる新しい手法が含まれています。T\"ULU 3では、開発および未知の評価、標準的なベンチマーク実装、およびこれらのベンチマークにおける既存のオープンデータセットの実質的な浄化を伴う、事後トレーニング手順のマルチタスク評価スキームを導入します。信頼性のないパフォーマンス向上をもたらさなかったトレーニング手法の分析と議論で締めくくります。 T\"ULU 3モデルの重みとデモに加えて、私たちは、多様な基本スキル用のデータセット、データキュレーションと評価のための堅牢なツールキット、トレーニングコードとインフラ、そして、T\"ULU 3アプローチを他の領域にさらに適応するための詳細なレポートを再現およびさらなる適応のために公開します。