ChatPaper.aiChatPaper

Construcción de Agentes Matemáticos con Aprendizaje de Preferencias Iterativo de Múltiples Vueltas

Building Math Agents with Multi-Turn Iterative Preference Learning

September 4, 2024
Autores: Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
cs.AI

Resumen

Estudios recientes han demostrado que las capacidades de resolución de problemas matemáticos de los modelos de lenguaje grandes (LLMs) pueden mejorarse mediante la integración de herramientas externas, como intérpretes de código, y el empleo de razonamiento en cadena de pensamiento (CoT) de múltiples turnos. Si bien los métodos actuales se centran en la generación de datos sintéticos y el ajuste fino supervisado (SFT), este artículo estudia el enfoque complementario de aprendizaje de preferencias directas para mejorar aún más el rendimiento del modelo. Sin embargo, los algoritmos existentes de aprendizaje de preferencias directas fueron diseñados originalmente para tareas de chat de un solo turno y no abordan completamente las complejidades del razonamiento de múltiples turnos y la integración de herramientas externas requeridas para tareas de razonamiento matemático con herramientas integradas. Para llenar este vacío, introducimos un marco de aprendizaje de preferencias directas de múltiples turnos, adaptado a este contexto, que aprovecha la retroalimentación de intérpretes de código y optimiza las preferencias a nivel de trayectoria. Este marco incluye DPO de múltiples turnos y KTO de múltiples turnos como implementaciones específicas. La efectividad de nuestro marco se valida mediante el entrenamiento de varios modelos de lenguaje utilizando un conjunto de prompts aumentados de los conjuntos de datos GSM8K y MATH. Nuestros resultados demuestran mejoras sustanciales: el rendimiento de un modelo Gemma-1.1-it-7B ajustado fino supervisado aumentó del 77.5% al 83.9% en GSM8K y del 46.1% al 51.2% en MATH. De manera similar, un modelo Gemma-2-it-9B mejoró del 84.1% al 86.3% en GSM8K y del 51.0% al 54.5% en MATH.
English
Recent studies have shown that large language models' (LLMs) mathematical problem-solving capabilities can be enhanced by integrating external tools, such as code interpreters, and employing multi-turn Chain-of-Thought (CoT) reasoning. While current methods focus on synthetic data generation and Supervised Fine-Tuning (SFT), this paper studies the complementary direct preference learning approach to further improve model performance. However, existing direct preference learning algorithms are originally designed for the single-turn chat task, and do not fully address the complexities of multi-turn reasoning and external tool integration required for tool-integrated mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn direct preference learning framework, tailored for this context, that leverages feedback from code interpreters and optimizes trajectory-level preferences. This framework includes multi-turn DPO and multi-turn KTO as specific implementations. The effectiveness of our framework is validated through training of various language models using an augmented prompt set from the GSM8K and MATH datasets. Our results demonstrate substantial improvements: a supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5% to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.
PDF162November 14, 2024