強力なモデルは、指導調整において強力な教師ではありません。
Stronger Models are NOT Stronger Teachers for Instruction Tuning
November 11, 2024
著者: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
要旨
指示チューニングは、大規模言語モデル(LLMs)がユーザーの指示を効果的に遵守することを確実にするために広く採用されています。LLMsの指示に従う能力は、チューニングに使用される指示データセットに大きく依存しています。最近、合成指示データセットが経済的に実現可能な解決策として登場し、LLMsに多様で高品質な指示を提供しています。ただし、既存のアプローチは通常、より大きなまたは強力なモデルが指示チューニングのための強力な教師であると仮定し、したがってこれらのモデルを単純に合成指示の応答生成器として採用しています。本論文では、この一般的に採用されている仮定に疑問を投げかけます。5つの基本モデルと20の応答生成器を対象とした包括的な実験により、より大きく、より強力なモデルが必ずしもより小さなモデルの強力な教師ではないことが明らかになりました。この現象を「大きなモデルのパラドックス」と呼んでいます。既存のメトリクスは、教師と微調整される基本モデルとの互換性を無視しているため、応答生成器の効果を正確に予測できません。したがって、教師と基本モデルの互換性を調整した報酬(CAR)という新しいメトリックを開発し、応答生成器の効果を測定します。5つの基本モデルを対象とした実験では、CARがほぼすべてのベースラインを上回ることが示されました。
English
Instruction tuning has been widely adopted to ensure large language models
(LLMs) follow user instructions effectively. The resulting
instruction-following capabilities of LLMs heavily rely on the instruction
datasets used for tuning. Recently, synthetic instruction datasets have emerged
as an economically viable solution to provide LLMs diverse and high-quality
instructions. However, existing approaches typically assume that larger or
stronger models are stronger teachers for instruction tuning, and hence simply
adopt these models as response generators to the synthetic instructions. In
this paper, we challenge this commonly-adopted assumption. Our extensive
experiments across five base models and twenty response generators reveal that
larger and stronger models are not necessarily stronger teachers of smaller
models. We refer to this phenomenon as the Larger Models' Paradox. We observe
that existing metrics cannot precisely predict the effectiveness of response
generators since they ignore the compatibility between teachers and base models
being fine-tuned. We thus develop a novel metric, named as
Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response
generators. Our experiments across five base models demonstrate that CAR
outperforms almost all baselines.Summary
AI-Generated Summary