R1-Code-Interpreter: Het trainen van LLM's om te redeneren met code via begeleid en reinforcement learning
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning
May 27, 2025
Auteurs: Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Chuchu Fan
cs.AI
Samenvatting
Ondanks vooruitgang in het redeneren en plannen van R1-achtige modellen, hebben Large Language Models (LLMs) nog steeds moeite met taken die precieze berekeningen, symbolische manipulatie, optimalisatie en algoritmisch redeneren vereisen, waarbij tekstueel redeneren de strengheid van code-uitvoering mist. Een belangrijke uitdaging is het in staat stellen van LLMs om te beslissen wanneer tekstueel redeneren versus codegeneratie moet worden gebruikt. Hoewel OpenAI modellen traint om een Code Interpreter aan te roepen wanneer nodig, ontbreekt er in openbaar onderzoek richtlijnen over het afstemmen van vooraf getrainde LLMs om effectief code te benutten en te generaliseren over diverse taken. Wij presenteren R1-Code-Interpreter, een uitbreiding van een tekst-only LLM getraind via multi-turn supervised fine-tuning (SFT) en reinforcement learning (RL) om autonoom meerdere code-query's te genereren tijdens stapsgewijs redeneren. Wij hebben 144 redeneer- en plannings taken samengesteld (107 voor training, 37 voor testen), elk met meer dan 200 diverse vragen. Wij fine-tunen Qwen-2.5 modellen (3B/7B/14B) met verschillende SFT en RL strategieën, waarbij we verschillende antwoordformaten, redenerende versus niet-redenerende modellen, koude versus warme starts, GRPO versus PPO, en gemaskeerde versus ongemaskeerde code-uitvoer onderzoeken. In tegenstelling tot eerder RL werk op smalle domeinen, vinden wij dat Code Interpreter training aanzienlijk moeilijker is vanwege hoge taakdiversiteit en dure code-uitvoering, wat de cruciale rol van de SFT fase benadrukt. Ons uiteindelijke model, R1-CI-14B, verbetert de gemiddelde nauwkeurigheid op de 37 test taken van 44,0\% naar 64,1\%, en overtreft GPT-4o (text-only: 58,6\%) en benadert GPT-4o met Code Interpreter (70,9\%), met het opkomende zelfcontrole gedrag via codegeneratie. Datasets, Codes en Modellen zijn beschikbaar op https://github.com/yongchao98/R1-Code-Interpreter en https://huggingface.co/yongchao98.
English
Despite advances in reasoning and planning of R1-like models, Large Language
Models (LLMs) still struggle with tasks requiring precise computation, symbolic
manipulation, optimization, and algorithmic reasoning, in which textual
reasoning lacks the rigor of code execution. A key challenge is enabling LLMs
to decide when to use textual reasoning versus code generation. While OpenAI
trains models to invoke a Code Interpreter as needed, public research lacks
guidance on aligning pre-trained LLMs to effectively leverage code and
generalize across diverse tasks. We present R1-Code-Interpreter, an extension
of a text-only LLM trained via multi-turn supervised fine-tuning (SFT) and
reinforcement learning (RL) to autonomously generate multiple code queries
during step-by-step reasoning. We curate 144 reasoning and planning tasks (107
for training, 37 for testing), each with over 200 diverse questions. We
fine-tune Qwen-2.5 models (3B/7B/14B) using various SFT and RL strategies,
investigating different answer formats, reasoning vs. non-reasoning models,
cold vs. warm starts, GRPO vs. PPO, and masked vs. unmasked code outputs.
Unlike prior RL work on narrow domains, we find that Code Interpreter training
is significantly harder due to high task diversity and expensive code
execution, highlighting the critical role of the SFT stage. Our final model,
R1-CI-14B, improves average accuracy on the 37 test tasks from 44.0\% to
64.1\%, outperforming GPT-4o (text-only: 58.6\%) and approaching GPT-4o with
Code Interpreter (70.9\%), with the emergent self-checking behavior via code
generation. Datasets, Codes, and Models are available at
https://github.com/yongchao98/R1-Code-Interpreter and
https://huggingface.co/yongchao98.