強力なモデルは、指導調整において強力な教師ではありません。Stronger Models are NOT Stronger Teachers for Instruction Tuning
指示チューニングは、大規模言語モデル(LLMs)がユーザーの指示を効果的に遵守することを確実にするために広く採用されています。LLMsの指示に従う能力は、チューニングに使用される指示データセットに大きく依存しています。最近、合成指示データセットが経済的に実現可能な解決策として登場し、LLMsに多様で高品質な指示を提供しています。ただし、既存のアプローチは通常、より大きなまたは強力なモデルが指示チューニングのための強力な教師であると仮定し、したがってこれらのモデルを単純に合成指示の応答生成器として採用しています。本論文では、この一般的に採用されている仮定に疑問を投げかけます。5つの基本モデルと20の応答生成器を対象とした包括的な実験により、より大きく、より強力なモデルが必ずしもより小さなモデルの強力な教師ではないことが明らかになりました。この現象を「大きなモデルのパラドックス」と呼んでいます。既存のメトリクスは、教師と微調整される基本モデルとの互換性を無視しているため、応答生成器の効果を正確に予測できません。したがって、教師と基本モデルの互換性を調整した報酬(CAR)という新しいメトリックを開発し、応答生成器の効果を測定します。5つの基本モデルを対象とした実験では、CARがほぼすべてのベースラインを上回ることが示されました。