思考選好最適化
Thinking Preference Optimization
February 17, 2025
著者: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
要旨
教師ありファインチューニング(SFT)は、比較的小規模な大規模言語モデル(LLM)において、長い連鎖的思考(CoT)推論を強化するための有効な手法として広く用いられてきました。これは、より大規模なLLMから得られた長いCoT応答を用いてモデルをファインチューニングすることで実現されます。推論能力を継続的に向上させるためには、新たな高品質な長いCoT推論SFTデータを収集するか、既存のSFTデータセットを繰り返し学習する方法が考えられます。しかし、新たな長いCoT SFTデータを取得するにはコストがかかり、また限界があります。一方で、繰り返し学習を行うと性能が頭打ちになるか、むしろ低下する場合が少なくありません。SFTデータを用いてさらなる性能向上を図るため、我々はThinking Preference Optimization(ThinkPO)を提案します。これは、新たな長いCoT応答を必要とせずに長いCoT推論を強化する、シンプルでありながら効果的なポストSFT手法です。ThinkPOでは、同じ質問に対して、容易に入手可能な短いCoT推論応答を拒否回答とし、長いCoT応答を選択回答として利用します。そして、直接選好最適化を適用することで、モデルがより長い推論出力を好むように促します。実験結果によると、ThinkPOはSFT済みモデルの推論性能をさらに向上させ、例えば数学的推論の精度を8.6%、出力長を25.9%向上させることが示されました。特に、ThinkPOは公開されている蒸留SFTモデルの性能を継続的に向上させる能力を持ち、例えばDeepSeek-R1-Distill-Qwen-7BのMATH500における公式性能を87.4%から91.2%に引き上げることができました。
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary