DPO à Contrôle Étape par Étape : Exploiter les Erreurs Progressives pour un Raisonnement Mathématique Amélioré

papers.abstract

L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) s'est avérée efficace pour améliorer les performances des grands modèles de langage (LLMs) sur des tâches en aval telles que le raisonnement et l'alignement. Dans ce travail, nous proposons la DPO à Contrôle Étape par Étape (Step-Controlled DPO, SCDPO), une méthode permettant de fournir automatiquement une supervision des erreurs étape par étape en créant des échantillons négatifs de raisonnements mathématiques qui commencent à faire des erreurs à une étape spécifiée. En appliquant ces échantillons dans l'entraînement DPO, SCDPO peut mieux aligner le modèle pour comprendre les erreurs de raisonnement et produire des étapes de raisonnement précises. Nous appliquons SCDPO à la fois aux solutions intégrant du code et aux solutions en chaîne de pensée, montrant empiriquement qu'elle améliore systématiquement les performances par rapport à la DPO naïve sur trois modèles SFT différents, incluant un modèle SFT existant et deux modèles que nous avons affinés. Une analyse qualitative de l'attribution de crédit de SCDPO et DPO démontre l'efficacité de SCDPO à identifier les erreurs dans les solutions mathématiques. Nous appliquons ensuite SCDPO à un modèle InternLM2-20B, obtenant un modèle de 20B qui atteint des scores élevés de 88,5 % sur GSM8K et 58,1 % sur MATH, rivalisant avec tous les autres LLMs open-source, montrant ainsi le grand potentiel de notre méthode.

English

Direct Preference Optimization (DPO) has proven effective at improving the performance of large language models (LLMs) on downstream tasks such as reasoning and alignment. In this work, we propose Step-Controlled DPO (SCDPO), a method for automatically providing stepwise error supervision by creating negative samples of mathematical reasoning rationales that start making errors at a specified step. By applying these samples in DPO training, SCDPO can better align the model to understand reasoning errors and output accurate reasoning steps. We apply SCDPO to both code-integrated and chain-of-thought solutions, empirically showing that it consistently improves the performance compared to naive DPO on three different SFT models, including one existing SFT model and two models we finetuned. Qualitative analysis of the credit assignment of SCDPO and DPO demonstrates the effectiveness of SCDPO at identifying errors in mathematical solutions. We then apply SCDPO to an InternLM2-20B model, resulting in a 20B model that achieves high scores of 88.5% on GSM8K and 58.1% on MATH, rivaling all other open-source LLMs, showing the great potential of our method.

DPO à Contrôle Étape par Étape : Exploiter les Erreurs Progressives pour un Raisonnement Mathématique Amélioré

Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning

papers.abstract

Support