Step-DPO : Optimisation pas à pas des préférences pour le raisonnement en chaîne longue des modèles de langage

papers.abstract

Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLMs) en raison de la chaîne de raisonnement étendue et précise nécessaire pour garantir l'exactitude. Assurer la justesse de chaque étape de raisonnement est crucial. Pour y remédier, nous visons à améliorer la robustesse et la factualité des LLMs en apprenant à partir des retours humains. Cependant, l'Optimisation Directe des Préférences (DPO) a montré des avantages limités pour le raisonnement mathématique à longue chaîne, car les modèles utilisant la DPO peinent à identifier les erreurs détaillées dans les réponses incorrectes. Cette limitation découle d'un manque de supervision fine du processus. Nous proposons une méthode simple, efficace et économe en données appelée Step-DPO, qui traite les étapes individuelles de raisonnement comme des unités pour l'optimisation des préférences plutôt que d'évaluer les réponses de manière holistique. De plus, nous avons développé un pipeline de construction de données pour Step-DPO, permettant la création d'un ensemble de données de haute qualité contenant 10K paires de préférences étape par étape. Nous observons également que dans la DPO, les données auto-générées sont plus efficaces que celles générées par des humains ou GPT-4, en raison du caractère hors distribution de ces dernières. Nos résultats montrent qu'aussi peu que 10K paires de données de préférence et moins de 500 étapes d'entraînement Step-DPO peuvent entraîner un gain de près de 3% en précision sur MATH pour des modèles de plus de 70B paramètres. Notamment, Step-DPO, appliqué à Qwen2-72B-Instruct, atteint des scores de 70,8% et 94,0% sur les ensembles de test de MATH et GSM8K, respectivement, surpassant une série de modèles propriétaires, dont GPT-4-1106, Claude-3-Opus et Gemini-1.5-Pro. Notre code, données et modèles sont disponibles à l'adresse https://github.com/dvlab-research/Step-DPO.

English

Mathematical reasoning presents a significant challenge for Large Language Models (LLMs) due to the extensive and precise chain of reasoning required for accuracy. Ensuring the correctness of each reasoning step is critical. To address this, we aim to enhance the robustness and factuality of LLMs by learning from human feedback. However, Direct Preference Optimization (DPO) has shown limited benefits for long-chain mathematical reasoning, as models employing DPO struggle to identify detailed errors in incorrect answers. This limitation stems from a lack of fine-grained process supervision. We propose a simple, effective, and data-efficient method called Step-DPO, which treats individual reasoning steps as units for preference optimization rather than evaluating answers holistically. Additionally, we have developed a data construction pipeline for Step-DPO, enabling the creation of a high-quality dataset containing 10K step-wise preference pairs. We also observe that in DPO, self-generated data is more effective than data generated by humans or GPT-4, due to the latter's out-of-distribution nature. Our findings demonstrate that as few as 10K preference data pairs and fewer than 500 Step-DPO training steps can yield a nearly 3% gain in accuracy on MATH for models with over 70B parameters. Notably, Step-DPO, when applied to Qwen2-72B-Instruct, achieves scores of 70.8% and 94.0% on the test sets of MATH and GSM8K, respectively, surpassing a series of closed-source models, including GPT-4-1106, Claude-3-Opus, and Gemini-1.5-Pro. Our code, data, and models are available at https://github.com/dvlab-research/Step-DPO.

Step-DPO : Optimisation pas à pas des préférences pour le raisonnement en chaîne longue des modèles de langage

Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

papers.abstract

Support