Enseñar a los modelos de lenguaje a pensar en código

Resumen

El razonamiento integrado con herramientas (TIR, por sus siglas en inglés) se ha consolidado como un paradigma dominante para la resolución de problemas matemáticos en modelos de lenguaje, combinando el razonamiento en lenguaje natural (NL) con la ejecución de código. Sin embargo, esta configuración intercalada presenta tres limitaciones clave: el código suele actuar como verificador a posteriori, los cálculos intermedios en lenguaje natural son propensos a errores, y el NL y el código desempeñan roles superpuestos en lugar de claramente diferenciados. Proponemos ThinC (Thinking in Code), un marco en el que el propio código actúa como razonador, en lugar de ser una herramienta invocada por el NL. Una trayectoria de ThinC comienza con un breve paso de planificación en lenguaje natural, tras el cual todo el razonamiento se desarrolla a través de bloques de código conectados únicamente por sus resultados de ejecución. Destilamos 12.2k trayectorias centradas en código a partir de un modelo profesor y entrenamos ThinC-1.7B y ThinC-4B mediante ajuste fino supervisado seguido de aprendizaje por refuerzo. ThinC-4B supera consistentemente a todas las líneas base de TIR en cinco referencias de matemáticas de nivel competitivo, e incluso sobrepasa al modelo considerablemente mayor Qwen3-235B-A22B-Thinking. Un análisis adicional muestra que ThinC razona a través del código: el 99.2% de sus respuestas finales se basan en la salida del intérprete, y el modelo se recupera de forma fiable de fallos en la ejecución del código sin necesidad de razonamiento intermedio en lenguaje natural. Nuestro código y modelos se publicarán próximamente.

English

Tool-integrated reasoning (TIR) has emerged as a dominant paradigm for mathematical problem solving in language models, combining natural language (NL) reasoning with code execution. However, this interleaved setup has three key limitations: code often acts as a post-hoc verifier, intermediate NL computations are error-prone, and NL and code play overlapping rather than clearly distinct roles. We propose ThinC (Thinking in Code), a framework in which code itself serves as the reasoner rather than as a tool invoked by NL. A ThinC trajectory begins with a brief NL planning step, after which all reasoning unfolds through code blocks connected only by their execution outputs. We distill 12.2k code-centric trajectories from a teacher model and train ThinC-1.7B and ThinC-4B with supervised fine-tuning followed by reinforcement learning. ThinC-4B consistently outperforms every TIR baseline on five competition-level math benchmarks and even surpasses the much larger Qwen3-235B-A22B-Thinking. Further analysis shows that ThinC reasons through code: 99.2% of its final answers are grounded in interpreter output, and the model recovers reliably from code execution failures without intermediate NL reasoning. Our code and models will be released soon.

Enseñar a los modelos de lenguaje a pensar en código

Teaching Language Models to Think in Code

Resumen

Support