R1-Code-Interpreter: Schulung von LLMs zum logischen Denken mit Code durch überwachtes und bestärkendes Lernen

papers.abstract

Trotz Fortschritten in der Argumentation und Planung von R1-ähnlichen Modellen haben Large Language Models (LLMs) weiterhin Schwierigkeiten mit Aufgaben, die präzise Berechnungen, symbolische Manipulation, Optimierung und algorithmisches Denken erfordern, bei denen textbasierte Argumentation die Strenge der Code-Ausführung vermissen lässt. Eine zentrale Herausforderung besteht darin, LLMs in die Lage zu versetzen, zu entscheiden, wann sie textbasierte Argumentation gegenüber Code-Generierung verwenden sollen. Während OpenAI Modelle trainiert, bei Bedarf einen Code-Interpreter aufzurufen, fehlt in der öffentlichen Forschung eine Anleitung, wie vortrainierte LLMs effektiv Code nutzen und über diverse Aufgaben hinweg verallgemeinern können. Wir präsentieren R1-Code-Interpreter, eine Erweiterung eines textbasierten LLMs, das durch mehrstufiges überwachtes Fein-Tuning (SFT) und Reinforcement Learning (RL) trainiert wurde, um während der schrittweisen Argumentation autonom mehrere Code-Abfragen zu generieren. Wir haben 144 Argumentations- und Planungsaufgaben (107 für das Training, 37 für Tests) kuratiert, jede mit über 200 verschiedenen Fragen. Wir feintunen Qwen-2.5-Modelle (3B/7B/14B) mit verschiedenen SFT- und RL-Strategien, untersuchen verschiedene Antwortformate, Argumentations- gegenüber Nicht-Argumentationsmodellen, Kalt- gegenüber Warmstarts, GRPO gegenüber PPO sowie maskierte gegenüber unmaskierten Code-Ausgaben. Im Gegensatz zu früheren RL-Arbeiten in engen Domänen stellen wir fest, dass das Training des Code-Interpreters aufgrund der hohen Aufgabenvielfalt und der teuren Code-Ausführung deutlich schwieriger ist, was die kritische Rolle der SFT-Phase unterstreicht. Unser finales Modell, R1-CI-14B, verbessert die durchschnittliche Genauigkeit bei den 37 Testaufgaben von 44,0\% auf 64,1\%, übertrifft GPT-4o (textbasiert: 58,6\%) und nähert sich GPT-4o mit Code-Interpreter (70,9\%) an, wobei das emergente Selbstüberprüfungsverhalten durch Code-Generierung eine Rolle spielt. Datensätze, Codes und Modelle sind verfügbar unter https://github.com/yongchao98/R1-Code-Interpreter und https://huggingface.co/yongchao98.

English

Despite advances in reasoning and planning of R1-like models, Large Language Models (LLMs) still struggle with tasks requiring precise computation, symbolic manipulation, optimization, and algorithmic reasoning, in which textual reasoning lacks the rigor of code execution. A key challenge is enabling LLMs to decide when to use textual reasoning versus code generation. While OpenAI trains models to invoke a Code Interpreter as needed, public research lacks guidance on aligning pre-trained LLMs to effectively leverage code and generalize across diverse tasks. We present R1-Code-Interpreter, an extension of a text-only LLM trained via multi-turn supervised fine-tuning (SFT) and reinforcement learning (RL) to autonomously generate multiple code queries during step-by-step reasoning. We curate 144 reasoning and planning tasks (107 for training, 37 for testing), each with over 200 diverse questions. We fine-tune Qwen-2.5 models (3B/7B/14B) using various SFT and RL strategies, investigating different answer formats, reasoning vs. non-reasoning models, cold vs. warm starts, GRPO vs. PPO, and masked vs. unmasked code outputs. Unlike prior RL work on narrow domains, we find that Code Interpreter training is significantly harder due to high task diversity and expensive code execution, highlighting the critical role of the SFT stage. Our final model, R1-CI-14B, improves average accuracy on the 37 test tasks from 44.0\% to 64.1\%, outperforming GPT-4o (text-only: 58.6\%) and approaching GPT-4o with Code Interpreter (70.9\%), with the emergent self-checking behavior via code generation. Datasets, Codes, and Models are available at https://github.com/yongchao98/R1-Code-Interpreter and https://huggingface.co/yongchao98.

R1-Code-Interpreter: Schulung von LLMs zum logischen Denken mit Code durch überwachtes und bestärkendes Lernen

R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

papers.abstract

Support