R1-Code-Interpreter: Addestramento di LLM a Ragionare con il Codice tramite Apprendimento Supervisionato e per Rinforzo
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning
May 27, 2025
Autori: Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Chuchu Fan
cs.AI
Abstract
Nonostante i progressi nel ragionamento e nella pianificazione dei modelli simili a R1, i Large Language Models (LLM) continuano a incontrare difficoltà in compiti che richiedono calcoli precisi, manipolazione simbolica, ottimizzazione e ragionamento algoritmico, dove il ragionamento testuale manca del rigore dell'esecuzione del codice. Una sfida chiave è consentire agli LLM di decidere quando utilizzare il ragionamento testuale rispetto alla generazione di codice. Mentre OpenAI addestra i modelli a invocare un Code Interpreter quando necessario, la ricerca pubblica manca di linee guida su come allineare gli LLM pre-addestrati per sfruttare efficacemente il codice e generalizzare su compiti diversi. Presentiamo R1-Code-Interpreter, un'estensione di un LLM esclusivamente testuale addestrato tramite fine-tuning supervisionato multi-turn (SFT) e apprendimento per rinforzo (RL) per generare autonomamente più query di codice durante il ragionamento passo-passo. Abbiamo curato 144 compiti di ragionamento e pianificazione (107 per l'addestramento, 37 per il test), ciascuno con oltre 200 domande diverse. Abbiamo sottoposto a fine-tuning i modelli Qwen-2.5 (3B/7B/14B) utilizzando varie strategie SFT e RL, investigando diversi formati di risposta, modelli con e senza ragionamento, avvii a freddo e a caldo, GRPO vs. PPO, e output di codice mascherati e non mascherati. A differenza dei precedenti lavori RL su domini ristretti, troviamo che l'addestramento con Code Interpreter è significativamente più difficile a causa dell'elevata diversità dei compiti e dell'esecuzione costosa del codice, evidenziando il ruolo cruciale della fase SFT. Il nostro modello finale, R1-CI-14B, migliora l'accuratezza media sui 37 compiti di test dal 44,0% al 64,1%, superando GPT-4o (solo testo: 58,6%) e avvicinandosi a GPT-4o con Code Interpreter (70,9%), con l'emergere di un comportamento di autocontrollo tramite generazione di codice. Dataset, codici e modelli sono disponibili su https://github.com/yongchao98/R1-Code-Interpreter e https://huggingface.co/yongchao98.
English
Despite advances in reasoning and planning of R1-like models, Large Language
Models (LLMs) still struggle with tasks requiring precise computation, symbolic
manipulation, optimization, and algorithmic reasoning, in which textual
reasoning lacks the rigor of code execution. A key challenge is enabling LLMs
to decide when to use textual reasoning versus code generation. While OpenAI
trains models to invoke a Code Interpreter as needed, public research lacks
guidance on aligning pre-trained LLMs to effectively leverage code and
generalize across diverse tasks. We present R1-Code-Interpreter, an extension
of a text-only LLM trained via multi-turn supervised fine-tuning (SFT) and
reinforcement learning (RL) to autonomously generate multiple code queries
during step-by-step reasoning. We curate 144 reasoning and planning tasks (107
for training, 37 for testing), each with over 200 diverse questions. We
fine-tune Qwen-2.5 models (3B/7B/14B) using various SFT and RL strategies,
investigating different answer formats, reasoning vs. non-reasoning models,
cold vs. warm starts, GRPO vs. PPO, and masked vs. unmasked code outputs.
Unlike prior RL work on narrow domains, we find that Code Interpreter training
is significantly harder due to high task diversity and expensive code
execution, highlighting the critical role of the SFT stage. Our final model,
R1-CI-14B, improves average accuracy on the 37 test tasks from 44.0\% to
64.1\%, outperforming GPT-4o (text-only: 58.6\%) and approaching GPT-4o with
Code Interpreter (70.9\%), with the emergent self-checking behavior via code
generation. Datasets, Codes, and Models are available at
https://github.com/yongchao98/R1-Code-Interpreter and
https://huggingface.co/yongchao98.