Construção de Agentes Matemáticos com Aprendizado Iterativo de Preferências em Múltiplas Etapas
Building Math Agents with Multi-Turn Iterative Preference Learning
September 4, 2024
Autores: Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
cs.AI
Resumo
Estudos recentes demonstraram que as capacidades de resolução de problemas matemáticos de modelos de linguagem grandes (LLMs) podem ser aprimoradas através da integração de ferramentas externas, como interpretadores de código, e da utilização de raciocínio em cadeia de pensamento (CoT) multi-turn. Embora os métodos atuais se concentrem na geração de dados sintéticos e no Ajuste Fino Supervisionado (SFT), este artigo estuda a abordagem complementar de aprendizagem por preferência direta para melhorar ainda mais o desempenho do modelo. No entanto, os algoritmos existentes de aprendizagem por preferência direta foram originalmente concebidos para a tarefa de chat single-turn e não abordam totalmente as complexidades do raciocínio multi-turn e da integração de ferramentas externas necessárias para tarefas de raciocínio matemático com integração de ferramentas. Para preencher esta lacuna, introduzimos uma estrutura de aprendizagem por preferência direta multi-turn, adaptada a este contexto, que aproveita o *feedback* de interpretadores de código e otimiza preferências a nível de trajetória. Esta estrutura inclui o DPO multi-turn e o KTO multi-turn como implementações específicas. A eficácia da nossa estrutura é validada através do treino de vários modelos de linguagem utilizando um conjunto de *prompts* aumentado dos conjuntos de dados GSM8K e MATH. Os nossos resultados demonstram melhorias substanciais: o desempenho de um modelo Gemma-1.1-it-7B com ajuste fino supervisionado aumentou de 77,5% para 83,9% no GSM8K e de 46,1% para 51,2% no MATH. De forma semelhante, um modelo Gemma-2-it-9B melhorou de 84,1% para 86,3% no GSM8K e de 51,0% para 54,5% no MATH.
English
Recent studies have shown that large language models' (LLMs) mathematical
problem-solving capabilities can be enhanced by integrating external tools,
such as code interpreters, and employing multi-turn Chain-of-Thought (CoT)
reasoning. While current methods focus on synthetic data generation and
Supervised Fine-Tuning (SFT), this paper studies the complementary direct
preference learning approach to further improve model performance. However,
existing direct preference learning algorithms are originally designed for the
single-turn chat task, and do not fully address the complexities of multi-turn
reasoning and external tool integration required for tool-integrated
mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn
direct preference learning framework, tailored for this context, that leverages
feedback from code interpreters and optimizes trajectory-level preferences.
This framework includes multi-turn DPO and multi-turn KTO as specific
implementations. The effectiveness of our framework is validated through
training of various language models using an augmented prompt set from the
GSM8K and MATH datasets. Our results demonstrate substantial improvements: a
supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5%
to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B
model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.