Entwicklung mathematischer Agenten durch mehrstufiges iteratives Präferenzlernen

papers.abstract

Aktuelle Studien zeigen, dass die mathematischen Problemlösungsfähigkeiten großer Sprachmodelle (LLMs) durch die Integration externer Werkzeuge wie Code-Interpreter und den Einsatz von mehrstufigem Chain-of-Thought (CoT)-Reasoning verbessert werden können. Während sich aktuelle Methoden auf die Erzeugung synthetischer Daten und Supervised Fine-Tuning (SFT) konzentrieren, untersucht diese Arbeit den komplementären Ansatz des direkten Präferenzlernens, um die Modellleistung weiter zu steigern. Allerdings sind bestehende Algorithmen für direktes Präferenzlernen ursprünglich für die einstufige Chat-Aufgabe konzipiert und berücksichtigen nicht vollständig die Komplexitäten des mehrstufigen Reasonings und der Integration externer Werkzeuge, die für Werkzeug-integrierte mathematische Reasoning-Aufgaben erforderlich sind. Um diese Lücke zu schließen, führen wir einen mehrstufigen Rahmen für direktes Präferenzlernen ein, der speziell auf diesen Kontext zugeschnitten ist und Feedback von Code-Internpretern nutzt sowie Trajektorien-basierte Präferenzen optimiert. Dieser Rahmen umfasst Multi-Turn-DPO und Multi-Turn-KTO als konkrete Implementierungen. Die Wirksamkeit unseres Frameworks wird durch das Training verschiedener Sprachmodelle mit einem erweiterten Prompt-Satz aus den GSM8K- und MATH-Datensätzen validiert. Unsere Ergebnisse zeigen erhebliche Verbesserungen: Die Leistung eines supervidiert feinabgestimmten Gemma-1.1-it-7B-Modells stieg auf GSM8K von 77,5 % auf 83,9 % und auf MATH von 46,1 % auf 51,2 %. Ebenso verbesserte sich ein Gemma-2-it-9B-Modell auf GSM8K von 84,1 % auf 86,3 % und auf MATH von 51,0 % auf 54,5 %.

English

Recent studies have shown that large language models' (LLMs) mathematical problem-solving capabilities can be enhanced by integrating external tools, such as code interpreters, and employing multi-turn Chain-of-Thought (CoT) reasoning. While current methods focus on synthetic data generation and Supervised Fine-Tuning (SFT), this paper studies the complementary direct preference learning approach to further improve model performance. However, existing direct preference learning algorithms are originally designed for the single-turn chat task, and do not fully address the complexities of multi-turn reasoning and external tool integration required for tool-integrated mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn direct preference learning framework, tailored for this context, that leverages feedback from code interpreters and optimizes trajectory-level preferences. This framework includes multi-turn DPO and multi-turn KTO as specific implementations. The effectiveness of our framework is validated through training of various language models using an augmented prompt set from the GSM8K and MATH datasets. Our results demonstrate substantial improvements: a supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5% to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.

Entwicklung mathematischer Agenten durch mehrstufiges iteratives Präferenzlernen

Building Math Agents with Multi-Turn Iterative Preference Learning

papers.abstract

Support