Rho-1: すべてのトークンが必要なわけではないRho-1: Not All Tokens Are What You Need
従来の言語モデルの事前学習手法では、すべての訓練トークンに対して一様に次のトークン予測損失を適用してきました。この常識に挑戦し、我々は「コーパス内のすべてのトークンが言語モデルの訓練において同等に重要ではない」と主張します。我々の初期分析では、言語モデルのトークンレベルの訓練ダイナミクスを探り、異なるトークンに対する損失パターンの違いを明らかにしました。これらの知見を活用して、我々は新しい言語モデルRho-1を提案します。従来の言語モデルがコーパス内のすべての次のトークンを予測するのとは異なり、Rho-1はSelective Language Modeling(SLM)を採用し、目的の分布に沿った有用なトークンを選択的に訓練します。このアプローチでは、参照モデルを使用して事前学習トークンをスコアリングし、その後、過剰損失が高いトークンに焦点を当てた損失で言語モデルを訓練します。15BのOpenWebMathコーパスで継続的に事前学習を行うと、Rho-1は9つの数学タスクにおいて、最大30%の絶対的なfew-shot精度の向上をもたらしました。ファインチューニング後、Rho-1-1Bと7Bは、それぞれMATHデータセットで40.6%と51.8%の最先端の結果を達成し、事前学習トークンのわずか3%でDeepSeekMathに匹敵する性能を示しました。さらに、80Bの一般トークンで事前学習を行うと、Rho-1は15の多様なタスクにわたって平均6.8%の向上を達成し、言語モデルの事前学習の効率と性能の両方を向上させました。