Optimisation des Préférences de Pensée
Thinking Preference Optimization
February 17, 2025
Auteurs: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
Résumé
Le Fine-Tuning Supervisé (SFT) a été une méthode privilégiée et efficace pour améliorer le raisonnement en chaîne de pensée (CoT) longue dans des modèles de langage relativement petits, en les affinant avec des réponses CoT longues provenant de modèles plus grands. Pour améliorer continuellement les capacités de raisonnement, nous pouvons soit collecter de nouvelles données SFT de haute qualité pour le raisonnement CoT long, soit entraîner de manière répétée sur des ensembles de données SFT existants. Cependant, l'acquisition de nouvelles données SFT pour le raisonnement CoT long est coûteuse et limitée, tandis qu'un entraînement répété conduit souvent à un plateau ou à une baisse de performance. Pour améliorer davantage les performances avec les données SFT, nous proposons l'Optimisation des Préférences de Raisonnement (ThinkPO), une méthode simple mais efficace post-SFT qui améliore le raisonnement CoT long sans nécessiter de nouvelles réponses CoT longes. Au lieu de cela, ThinkPO utilise des réponses de raisonnement CoT courtes, facilement disponibles ou obtenues, comme réponses rejetées, et des réponses CoT longes comme réponses choisies pour la même question. Il applique ensuite une optimisation directe des préférences pour encourager le modèle à privilégier des sorties de raisonnement plus longues. Les expériences montrent que ThinkPO améliore encore les performances de raisonnement des modèles affinés par SFT, par exemple, il augmente la précision du raisonnement mathématique des modèles affinés par SFT de 8,6 % et la longueur des sorties de 25,9 %. Notamment, ThinkPO est capable d'améliorer continuellement les performances du modèle SFT distillé publiquement, par exemple, en augmentant les performances officielles de DeepSeek-R1-Distill-Qwen-7B sur MATH500 de 87,4 % à 91,2 %.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary