Développement d'Agents Mathématiques par Apprentissage Itératif des Préférences sur Plusieurs Tours

papers.abstract

Des études récentes ont montré que les capacités de résolution de problèmes mathématiques des grands modèles de langage (LLM) peuvent être améliorées en intégrant des outils externes, tels que des interpréteurs de code, et en employant un raisonnement en chaîne de pensée (CoT) multi-tours. Alors que les méthodes actuelles se concentrent sur la génération de données synthétiques et le fine-tuning supervisé (SFT), cet article étudie l'approche complémentaire de l'apprentissage par préférences directes pour améliorer davantage les performances du modèle. Cependant, les algorithmes existants d'apprentissage par préférences directes sont conçus à l'origine pour la tâche de dialogue en un seul tour et ne répondent pas pleinement aux complexités du raisonnement multi-tours et de l'intégration d'outils externes requis pour les tâches de raisonnement mathématique intégrant des outils. Pour combler cette lacune, nous introduisons un cadre d'apprentissage par préférences directes multi-tours, adapté à ce contexte, qui exploite les retours des interpréteurs de code et optimise les préférences au niveau de la trajectoire. Ce cadre inclut le DPO multi-tours et le KTO multi-tours comme implémentations spécifiques. L'efficacité de notre cadre est validée par l'entraînement de divers modèles de langage à l'aide d'un ensemble d'invites augmenté provenant des jeux de données GSM8K et MATH. Nos résultats démontrent des améliorations substantielles : les performances d'un modèle Gemma-1.1-it-7B préalablement affiné par SFT sont passées de 77,5 % à 83,9 % sur GSM8K et de 46,1 % à 51,2 % sur MATH. De même, un modèle Gemma-2-it-9B est passé de 84,1 % à 86,3 % sur GSM8K et de 51,0 % à 54,5 % sur MATH.

English

Recent studies have shown that large language models' (LLMs) mathematical problem-solving capabilities can be enhanced by integrating external tools, such as code interpreters, and employing multi-turn Chain-of-Thought (CoT) reasoning. While current methods focus on synthetic data generation and Supervised Fine-Tuning (SFT), this paper studies the complementary direct preference learning approach to further improve model performance. However, existing direct preference learning algorithms are originally designed for the single-turn chat task, and do not fully address the complexities of multi-turn reasoning and external tool integration required for tool-integrated mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn direct preference learning framework, tailored for this context, that leverages feedback from code interpreters and optimizes trajectory-level preferences. This framework includes multi-turn DPO and multi-turn KTO as specific implementations. The effectiveness of our framework is validated through training of various language models using an augmented prompt set from the GSM8K and MATH datasets. Our results demonstrate substantial improvements: a supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5% to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.

Développement d'Agents Mathématiques par Apprentissage Itératif des Préférences sur Plusieurs Tours

Building Math Agents with Multi-Turn Iterative Preference Learning

papers.abstract

Support