L'auto-apprentissage avec optimisation directe des préférences améliore le raisonnement en chaîne de pensée.
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
Auteurs: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
Résumé
L'entraînement efficace de modèles de langage (LMs) pour des tâches de raisonnement mathématique nécessite des données de fine-tuning supervisé de haute qualité. Outre l'obtention d'annotations provenant d'experts humains, une alternative courante consiste à échantillonner à partir de LMs plus grands et plus puissants. Cependant, cette approche de distillation des connaissances peut être coûteuse et instable, en particulier lorsqu'elle repose sur des LMs propriétaires et fermés comme GPT-4, dont les comportements sont souvent imprévisibles. Dans ce travail, nous démontrons que les capacités de raisonnement des LMs à petite échelle peuvent être améliorées grâce à l'auto-apprentissage, un processus où les modèles apprennent à partir de leurs propres sorties. Nous montrons également que l'auto-apprentissage conventionnel peut être renforcé par un algorithme d'apprentissage par préférences appelé Direct Preference Optimization (DPO). En intégrant DPO dans l'auto-apprentissage, nous exploitons des données de préférences pour guider les LMs vers un raisonnement en chaîne de pensées plus précis et diversifié. Nous évaluons notre méthode sur diverses tâches de raisonnement mathématique en utilisant différents modèles de base. Nos expériences montrent que cette approche améliore non seulement les performances de raisonnement des LMs, mais offre également une solution plus économique et scalable par rapport à l'utilisation de grands LMs propriétaires.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary