DPO à Contrôle Étape par Étape : Exploiter les Erreurs Progressives pour un Raisonnement Mathématique Amélioré
Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning
June 30, 2024
Auteurs: Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan
cs.AI
Résumé
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) s'est avérée efficace pour améliorer les performances des grands modèles de langage (LLMs) sur des tâches en aval telles que le raisonnement et l'alignement. Dans ce travail, nous proposons la DPO à Contrôle Étape par Étape (Step-Controlled DPO, SCDPO), une méthode permettant de fournir automatiquement une supervision des erreurs étape par étape en créant des échantillons négatifs de raisonnements mathématiques qui commencent à faire des erreurs à une étape spécifiée. En appliquant ces échantillons dans l'entraînement DPO, SCDPO peut mieux aligner le modèle pour comprendre les erreurs de raisonnement et produire des étapes de raisonnement précises. Nous appliquons SCDPO à la fois aux solutions intégrant du code et aux solutions en chaîne de pensée, montrant empiriquement qu'elle améliore systématiquement les performances par rapport à la DPO naïve sur trois modèles SFT différents, incluant un modèle SFT existant et deux modèles que nous avons affinés. Une analyse qualitative de l'attribution de crédit de SCDPO et DPO démontre l'efficacité de SCDPO à identifier les erreurs dans les solutions mathématiques. Nous appliquons ensuite SCDPO à un modèle InternLM2-20B, obtenant un modèle de 20B qui atteint des scores élevés de 88,5 % sur GSM8K et 58,1 % sur MATH, rivalisant avec tous les autres LLMs open-source, montrant ainsi le grand potentiel de notre méthode.
English
Direct Preference Optimization (DPO) has proven effective at improving the
performance of large language models (LLMs) on downstream tasks such as
reasoning and alignment. In this work, we propose Step-Controlled DPO (SCDPO),
a method for automatically providing stepwise error supervision by creating
negative samples of mathematical reasoning rationales that start making errors
at a specified step. By applying these samples in DPO training, SCDPO can
better align the model to understand reasoning errors and output accurate
reasoning steps. We apply SCDPO to both code-integrated and chain-of-thought
solutions, empirically showing that it consistently improves the performance
compared to naive DPO on three different SFT models, including one existing SFT
model and two models we finetuned. Qualitative analysis of the credit
assignment of SCDPO and DPO demonstrates the effectiveness of SCDPO at
identifying errors in mathematical solutions. We then apply SCDPO to an
InternLM2-20B model, resulting in a 20B model that achieves high scores of
88.5% on GSM8K and 58.1% on MATH, rivaling all other open-source LLMs, showing
the great potential of our method.Summary
AI-Generated Summary