R1-Code-Interpreter: Het trainen van LLM's om te redeneren met code via begeleid en reinforcement learning

Samenvatting

Ondanks vooruitgang in het redeneren en plannen van R1-achtige modellen, hebben Large Language Models (LLMs) nog steeds moeite met taken die precieze berekeningen, symbolische manipulatie, optimalisatie en algoritmisch redeneren vereisen, waarbij tekstueel redeneren de strengheid van code-uitvoering mist. Een belangrijke uitdaging is het in staat stellen van LLMs om te beslissen wanneer tekstueel redeneren versus codegeneratie moet worden gebruikt. Hoewel OpenAI modellen traint om een Code Interpreter aan te roepen wanneer nodig, ontbreekt er in openbaar onderzoek richtlijnen over het afstemmen van vooraf getrainde LLMs om effectief code te benutten en te generaliseren over diverse taken. Wij presenteren R1-Code-Interpreter, een uitbreiding van een tekst-only LLM getraind via multi-turn supervised fine-tuning (SFT) en reinforcement learning (RL) om autonoom meerdere code-query's te genereren tijdens stapsgewijs redeneren. Wij hebben 144 redeneer- en plannings taken samengesteld (107 voor training, 37 voor testen), elk met meer dan 200 diverse vragen. Wij fine-tunen Qwen-2.5 modellen (3B/7B/14B) met verschillende SFT en RL strategieën, waarbij we verschillende antwoordformaten, redenerende versus niet-redenerende modellen, koude versus warme starts, GRPO versus PPO, en gemaskeerde versus ongemaskeerde code-uitvoer onderzoeken. In tegenstelling tot eerder RL werk op smalle domeinen, vinden wij dat Code Interpreter training aanzienlijk moeilijker is vanwege hoge taakdiversiteit en dure code-uitvoering, wat de cruciale rol van de SFT fase benadrukt. Ons uiteindelijke model, R1-CI-14B, verbetert de gemiddelde nauwkeurigheid op de 37 test taken van 44,0\% naar 64,1\%, en overtreft GPT-4o (text-only: 58,6\%) en benadert GPT-4o met Code Interpreter (70,9\%), met het opkomende zelfcontrole gedrag via codegeneratie. Datasets, Codes en Modellen zijn beschikbaar op https://github.com/yongchao98/R1-Code-Interpreter en https://huggingface.co/yongchao98.

English

Despite advances in reasoning and planning of R1-like models, Large Language Models (LLMs) still struggle with tasks requiring precise computation, symbolic manipulation, optimization, and algorithmic reasoning, in which textual reasoning lacks the rigor of code execution. A key challenge is enabling LLMs to decide when to use textual reasoning versus code generation. While OpenAI trains models to invoke a Code Interpreter as needed, public research lacks guidance on aligning pre-trained LLMs to effectively leverage code and generalize across diverse tasks. We present R1-Code-Interpreter, an extension of a text-only LLM trained via multi-turn supervised fine-tuning (SFT) and reinforcement learning (RL) to autonomously generate multiple code queries during step-by-step reasoning. We curate 144 reasoning and planning tasks (107 for training, 37 for testing), each with over 200 diverse questions. We fine-tune Qwen-2.5 models (3B/7B/14B) using various SFT and RL strategies, investigating different answer formats, reasoning vs. non-reasoning models, cold vs. warm starts, GRPO vs. PPO, and masked vs. unmasked code outputs. Unlike prior RL work on narrow domains, we find that Code Interpreter training is significantly harder due to high task diversity and expensive code execution, highlighting the critical role of the SFT stage. Our final model, R1-CI-14B, improves average accuracy on the 37 test tasks from 44.0\% to 64.1\%, outperforming GPT-4o (text-only: 58.6\%) and approaching GPT-4o with Code Interpreter (70.9\%), with the emergent self-checking behavior via code generation. Datasets, Codes, and Models are available at https://github.com/yongchao98/R1-Code-Interpreter and https://huggingface.co/yongchao98.

R1-Code-Interpreter: Het trainen van LLM's om te redeneren met code via begeleid en reinforcement learning

R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

Samenvatting

Support