Step-DPO : Optimisation pas à pas des préférences pour le raisonnement en chaîne longue des modèles de langage
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs
June 26, 2024
Auteurs: Xin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia
cs.AI
Résumé
Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLMs) en raison de la chaîne de raisonnement étendue et précise nécessaire pour garantir l'exactitude. Assurer la justesse de chaque étape de raisonnement est crucial. Pour y remédier, nous visons à améliorer la robustesse et la factualité des LLMs en apprenant à partir des retours humains. Cependant, l'Optimisation Directe des Préférences (DPO) a montré des avantages limités pour le raisonnement mathématique à longue chaîne, car les modèles utilisant la DPO peinent à identifier les erreurs détaillées dans les réponses incorrectes. Cette limitation découle d'un manque de supervision fine du processus. Nous proposons une méthode simple, efficace et économe en données appelée Step-DPO, qui traite les étapes individuelles de raisonnement comme des unités pour l'optimisation des préférences plutôt que d'évaluer les réponses de manière holistique. De plus, nous avons développé un pipeline de construction de données pour Step-DPO, permettant la création d'un ensemble de données de haute qualité contenant 10K paires de préférences étape par étape. Nous observons également que dans la DPO, les données auto-générées sont plus efficaces que celles générées par des humains ou GPT-4, en raison du caractère hors distribution de ces dernières. Nos résultats montrent qu'aussi peu que 10K paires de données de préférence et moins de 500 étapes d'entraînement Step-DPO peuvent entraîner un gain de près de 3% en précision sur MATH pour des modèles de plus de 70B paramètres. Notamment, Step-DPO, appliqué à Qwen2-72B-Instruct, atteint des scores de 70,8% et 94,0% sur les ensembles de test de MATH et GSM8K, respectivement, surpassant une série de modèles propriétaires, dont GPT-4-1106, Claude-3-Opus et Gemini-1.5-Pro. Notre code, données et modèles sont disponibles à l'adresse https://github.com/dvlab-research/Step-DPO.
English
Mathematical reasoning presents a significant challenge for Large Language
Models (LLMs) due to the extensive and precise chain of reasoning required for
accuracy. Ensuring the correctness of each reasoning step is critical. To
address this, we aim to enhance the robustness and factuality of LLMs by
learning from human feedback. However, Direct Preference Optimization (DPO) has
shown limited benefits for long-chain mathematical reasoning, as models
employing DPO struggle to identify detailed errors in incorrect answers. This
limitation stems from a lack of fine-grained process supervision. We propose a
simple, effective, and data-efficient method called Step-DPO, which treats
individual reasoning steps as units for preference optimization rather than
evaluating answers holistically. Additionally, we have developed a data
construction pipeline for Step-DPO, enabling the creation of a high-quality
dataset containing 10K step-wise preference pairs. We also observe that in DPO,
self-generated data is more effective than data generated by humans or GPT-4,
due to the latter's out-of-distribution nature. Our findings demonstrate that
as few as 10K preference data pairs and fewer than 500 Step-DPO training steps
can yield a nearly 3% gain in accuracy on MATH for models with over 70B
parameters. Notably, Step-DPO, when applied to Qwen2-72B-Instruct, achieves
scores of 70.8% and 94.0% on the test sets of MATH and GSM8K, respectively,
surpassing a series of closed-source models, including GPT-4-1106,
Claude-3-Opus, and Gemini-1.5-Pro. Our code, data, and models are available at
https://github.com/dvlab-research/Step-DPO.Summary
AI-Generated Summary