Wiskundige Agents Bouwen met Multi-Turn Iteratieve Voorkeursleren
Building Math Agents with Multi-Turn Iterative Preference Learning
September 4, 2024
Auteurs: Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
cs.AI
Samenvatting
Recente studies tonen aan dat de wiskundige probleemoplossende vermogens van grote taalmodellen (LLM's) kunnen worden verbeterd door de integratie van externe tools, zoals code-interpreters, en het gebruik van meerdaadse Chain-of-Thought (CoT)-redenering. Hoewel huidige methodes zich richten op synthetische datageneratie en Supervised Fine-Tuning (SFT), bestudeert dit artikel de complementaire aanpak van direct preference learning om de modelprestaties verder te verbeteren. Echter, bestaande algoritmen voor direct preference learning zijn oorspronkelijk ontworpen voor de eenmalige chat-taak en adresseren niet volledig de complexiteiten van meerdaadse redenering en de integratie van externe tools die nodig zijn voor tool-gestuurde wiskundige redeneertaken. Om deze leemte op te vullen, introduceren we een meerdaads raamwerk voor direct preference learning, toegesneden op deze context, dat gebruikmaakt van feedback van code-interpreters en trajectniveau-preferences optimaliseert. Dit raamwerk omvat multi-turn DPO en multi-turn KTO als specifieke implementaties. De effectiviteit van ons raamwerk wordt gevalideerd door het trainen van diverse taalmodellen met behulp van een uitgebreide promptset van de GSM8K- en MATH-datasets. Onze resultaten tonen substantiële verbeteringen aan: de prestaties van een supervised fine-tuned Gemma-1.1-it-7B-model stegen van 77,5% naar 83,9% op GSM8K en van 46,1% naar 51,2% op MATH. Evenzo verbeterde een Gemma-2-it-9B-model van 84,1% naar 86,3% op GSM8K en van 51,0% naar 54,5% op MATH.
English
Recent studies have shown that large language models' (LLMs) mathematical
problem-solving capabilities can be enhanced by integrating external tools,
such as code interpreters, and employing multi-turn Chain-of-Thought (CoT)
reasoning. While current methods focus on synthetic data generation and
Supervised Fine-Tuning (SFT), this paper studies the complementary direct
preference learning approach to further improve model performance. However,
existing direct preference learning algorithms are originally designed for the
single-turn chat task, and do not fully address the complexities of multi-turn
reasoning and external tool integration required for tool-integrated
mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn
direct preference learning framework, tailored for this context, that leverages
feedback from code interpreters and optimizes trajectory-level preferences.
This framework includes multi-turn DPO and multi-turn KTO as specific
implementations. The effectiveness of our framework is validated through
training of various language models using an augmented prompt set from the
GSM8K and MATH datasets. Our results demonstrate substantial improvements: a
supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5%
to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B
model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.