Costruzione di Agenti Matematici con Apprendimento Iterativo delle Preferenze a Più Turni
Building Math Agents with Multi-Turn Iterative Preference Learning
September 4, 2024
Autori: Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
cs.AI
Abstract
Recenti studi hanno dimostrato che le capacità di risoluzione di problemi matematici dei grandi modelli linguistici (LLM) possono essere potenziate integrando strumenti esterni, come interpreti di codice, e impiegando ragionamenti a catena del pensiero (CoT) multi-turn. Mentre i metodi attuali si concentrano sulla generazione di dati sintetici e sul fine-tuning supervisionato (SFT), questo articolo studia l'approccio complementare dell'apprendimento per preferenze dirette per migliorare ulteriormente le prestazioni del modello. Tuttavia, gli algoritmi esistenti per l'apprendimento per preferenze dirette sono originariamente progettati per il task di chat single-turn e non affrontano appieno le complessità del ragionamento multi-turn e dell'integrazione di strumenti esterni richiesti per i task di ragionamento matematico con strumenti integrati.
Per colmare questa lacuna, introduciamo un framework di apprendimento per preferenze dirette multi-turn, specificamente progettato per questo contesto, che sfrutta il feedback degli interpreti di codice e ottimizza le preferenze a livello di traiettoria. Questo framework include DPO multi-turn e KTO multi-turn come implementazioni specifiche. L'efficacia del nostro framework è convalidata attraverso l'addestramento di vari modelli linguistici utilizzando un set di prompt arricchito dei dataset GSM8K e MATH. I nostri risultati dimostrano miglioramenti sostanziali: le prestazioni di un modello Gemma-1.1-it-7B sottoposto a fine-tuning supervisionato sono aumentate dal 77.5% all'83.9% su GSM8K e dal 46.1% al 51.2% su MATH. Analogamente, un modello Gemma-2-it-9B è migliorato dall'84.1% all'86.3% su GSM8K e dal 51.0% al 54.5% su MATH.
English
Recent studies have shown that large language models' (LLMs) mathematical
problem-solving capabilities can be enhanced by integrating external tools,
such as code interpreters, and employing multi-turn Chain-of-Thought (CoT)
reasoning. While current methods focus on synthetic data generation and
Supervised Fine-Tuning (SFT), this paper studies the complementary direct
preference learning approach to further improve model performance. However,
existing direct preference learning algorithms are originally designed for the
single-turn chat task, and do not fully address the complexities of multi-turn
reasoning and external tool integration required for tool-integrated
mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn
direct preference learning framework, tailored for this context, that leverages
feedback from code interpreters and optimizes trajectory-level preferences.
This framework includes multi-turn DPO and multi-turn KTO as specific
implementations. The effectiveness of our framework is validated through
training of various language models using an augmented prompt set from the
GSM8K and MATH datasets. Our results demonstrate substantial improvements: a
supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5%
to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B
model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.