Apprendre aux modèles de langage à penser en code

Résumé

Le raisonnement intégrant des outils (TIR) est devenu un paradigme dominant pour la résolution de problèmes mathématiques dans les modèles de langage, combinant le raisonnement en langage naturel (LN) avec l'exécution de code. Cependant, cette configuration entrelacée présente trois limitations clés : le code agit souvent comme un vérificateur a posteriori, les calculs intermédiaires en LN sont sujets aux erreurs, et le LN et le code jouent des rôles qui se chevauchent plutôt que d'être clairement distincts. Nous proposons ThinC (Thinking in Code), un cadre dans lequel le code lui-même sert de raisonneur plutôt que d'outil invoqué par le LN. Une trajectoire ThinC commence par une brève étape de planification en LN, après quoi tout le raisonnement se déroule à travers des blocs de code reliés uniquement par leurs sorties d'exécution. Nous distillons 12,2k trajectoires centrées sur le code à partir d'un modèle enseignant et entraînons ThinC-1.7B et ThinC-4B avec un ajustement fin supervisé suivi d'un apprentissage par renforcement. ThinC-4B surpasse systématiquement toutes les références TIR sur cinq benchmarks mathématiques de niveau compétition et dépasse même le modèle bien plus grand Qwen3-235B-A22B-Thinking. Une analyse plus poussée montre que ThinC raisonne via le code : 99,2 % de ses réponses finales sont ancrées dans la sortie de l'interpréteur, et le modèle se remet de manière fiable des échecs d'exécution de code sans raisonnement intermédiaire en LN. Notre code et nos modèles seront bientôt publiés.

English

Tool-integrated reasoning (TIR) has emerged as a dominant paradigm for mathematical problem solving in language models, combining natural language (NL) reasoning with code execution. However, this interleaved setup has three key limitations: code often acts as a post-hoc verifier, intermediate NL computations are error-prone, and NL and code play overlapping rather than clearly distinct roles. We propose ThinC (Thinking in Code), a framework in which code itself serves as the reasoner rather than as a tool invoked by NL. A ThinC trajectory begins with a brief NL planning step, after which all reasoning unfolds through code blocks connected only by their execution outputs. We distill 12.2k code-centric trajectories from a teacher model and train ThinC-1.7B and ThinC-4B with supervised fine-tuning followed by reinforcement learning. ThinC-4B consistently outperforms every TIR baseline on five competition-level math benchmarks and even surpasses the much larger Qwen3-235B-A22B-Thinking. Further analysis shows that ThinC reasons through code: 99.2% of its final answers are grounded in interpreter output, and the model recovers reliably from code execution failures without intermediate NL reasoning. Our code and models will be released soon.

Apprendre aux modèles de langage à penser en code

Teaching Language Models to Think in Code

Résumé

Support