直接選好最適化を用いた自己学習が 連鎖的思考推論を改善する
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
著者: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
要旨
数学的推論タスクにおける言語モデル(LM)の効果的な訓練には、高品質な教師付きファインチューニングデータが必要です。人間の専門家によるアノテーションを取得する以外に、一般的な代替手段として、より大規模で強力なLMからのサンプリングがあります。しかし、この知識蒸留アプローチはコストがかかり不安定であり、特にGPT-4のようなクローズドソースのプロプライエタリLMに依存する場合、その挙動が予測不能であることが多いです。本研究では、小規模なLMの推論能力が、モデルが自身の出力から学習するセルフトレーニングを通じて向上することを示します。また、従来のセルフトレーニングを、Direct Preference Optimization(DPO)と呼ばれる選好学習アルゴリズムによってさらに強化できることも示します。DPOをセルフトレーニングに統合することで、選好データを活用してLMをより正確で多様な連鎖的思考(chain-of-thought)推論に導きます。さまざまな数学的推論タスクにおいて異なるベースモデルを使用して本手法を評価します。実験結果から、このアプローチがLMの推論性能を向上させるだけでなく、大規模なプロプライエタリLMに依存するよりもコスト効率が高くスケーラブルなソリューションを提供することが示されました。
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary