ファインチューニングの批評:批評を学ぶことは模倣を学ぶよりも効果的であるCritique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
教師ありファインチューニング(SFT)は、言語モデルを指示に従った注釈付き応答を模倣するために一般的に使用されています。本論文では、このパラダイムに挑戦し、批評ファインチューニング(CFT)を提案します。CFTは、モデルが単に正しいものを模倣するのではなく、ノイズの多い応答を批評することを学ぶ戦略です。批評ファインチューニングは、批判的思考を重視する人間の学習プロセスに触発され、より深い分析と微妙な理解を促します。これらの特性は、標準的なSFTではしばしば見落とされています。CFTの効果を検証するために、GPT-4oを教師として使用し、WebInstructから50Kサンプルのデータセットを構築し、入力=[クエリ;ノイズの多い応答]、出力=批評という形式で批評を生成します。このデータセットでのCFTは、Qwen2.5、Qwen2.5-Math、DeepSeek-Mathなどの異なるベースモデルにおける6つの数学ベンチマークで、SFTに比べて一貫した4-10%の改善をもたらします。さらに、MetaMathとNuminaMathのデータセットに拡張し、SFTに比べて同様の利点を観察します。特筆すべきは、われわれのQwen2.5-Math-CFTモデルは、たった50Kサンプルで訓練され、2Mサンプル以上を使用するAceMathやQwen2.5-Math-Instructなどの競合モデルをほとんどのベンチマークで凌駕または上回ることです。削減研究によると、CFTはノイズの多い応答のソースや教師の批評モデルに対して頑健であることが示されています。これらの発見を通じて、批評に基づくトレーニングが言語モデルの推論を進めるためのより効果的な代替手段を提供すると主張しています。