Sprachmodellen beibringen, in Code zu denken

Zusammenfassung

Tool-integrated Reasoning (TIR) hat sich als dominantes Paradigma für das Lösen mathematischer Probleme in Sprachmodellen etabliert, das natürlichsprachliches Reasoning mit Codeausführung kombiniert. Dieser verzahnte Ansatz weist jedoch drei wesentliche Einschränkungen auf: Code fungiert häufig nur als nachträglicher Verifizierer, die zwischengeschalteten natürlichsprachlichen Berechnungen sind fehleranfällig, und NL und Code übernehmen eher überlappende als klar getrennte Rollen. Wir schlagen ThinC (Thinking in Code) vor, ein Rahmenwerk, in dem Code selbst als Reasoner fungiert, anstatt als ein von NL aufgerufenes Werkzeug zu dienen. Eine ThinC-Trajektorie beginnt mit einem kurzen NL-Planungsschritt, woraufhin sich das gesamte Reasoning innerhalb von Codeblöcken entfaltet, die nur über ihre Ausführungsergebnisse miteinander verbunden sind. Aus einem Lehrermodell destillieren wir 12,2 k Code-zentrierte Trajektorien und trainieren ThinC-1,7B und ThinC-4B mittels überwachten Feintunings gefolgt von bestärkendem Lernen. ThinC-4B übertrifft auf fünf Mathematik-Benchmarks auf Wettbewerbsniveau durchgängig jede TIR-Baseline und übertrifft sogar das wesentlich größere Qwen3-235B-A22B-Thinking. Eine weiterführende Analyse zeigt, dass ThinC durch Code denkt: 99,2 % seiner endgültigen Antworten basieren auf Interpreterausgaben, und das Modell erholt sich zuverlässig von Fehlern bei der Codeausführung, ohne dass zwischengeschaltetes NL-Reasoning erforderlich ist. Unser Code und unsere Modelle werden bald veröffentlicht.

English

Tool-integrated reasoning (TIR) has emerged as a dominant paradigm for mathematical problem solving in language models, combining natural language (NL) reasoning with code execution. However, this interleaved setup has three key limitations: code often acts as a post-hoc verifier, intermediate NL computations are error-prone, and NL and code play overlapping rather than clearly distinct roles. We propose ThinC (Thinking in Code), a framework in which code itself serves as the reasoner rather than as a tool invoked by NL. A ThinC trajectory begins with a brief NL planning step, after which all reasoning unfolds through code blocks connected only by their execution outputs. We distill 12.2k code-centric trajectories from a teacher model and train ThinC-1.7B and ThinC-4B with supervised fine-tuning followed by reinforcement learning. ThinC-4B consistently outperforms every TIR baseline on five competition-level math benchmarks and even surpasses the much larger Qwen3-235B-A22B-Thinking. Further analysis shows that ThinC reasons through code: 99.2% of its final answers are grounded in interpreter output, and the model recovers reliably from code execution failures without intermediate NL reasoning. Our code and models will be released soon.

Sprachmodellen beibringen, in Code zu denken

Teaching Language Models to Think in Code

Zusammenfassung

Support