CoRT: Razonamiento Integrado en Código dentro del Pensamiento
CoRT: Code-integrated Reasoning within Thinking
June 11, 2025
Autores: Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) como o1 y DeepSeek-R1 han mostrado avances notables en el razonamiento del lenguaje natural con cadenas de pensamiento (CoT) extensas, pero siguen siendo ineficientes o imprecisos al manejar operaciones matemáticas complejas. Abordar estas limitaciones mediante herramientas computacionales (por ejemplo, bibliotecas de cálculo y solucionadores simbólicos) es prometedor, pero introduce un desafío técnico: el Intérprete de Código (CI) aporta conocimiento externo más allá de las representaciones de texto internas del modelo, por lo que la combinación directa no es eficiente. Este artículo presenta CoRT, un marco de posentrenamiento para enseñar a los LRMs a aprovechar el CI de manera efectiva y eficiente. Como primer paso, abordamos la escasez de datos sintetizando datos de razonamiento integrados con código mediante Ingeniería de Pistas (Hint-Engineering), que inserta estratégicamente diferentes pistas en posiciones adecuadas para optimizar la interacción LRM-CI. Creamos manualmente 30 muestras de alta calidad, sobre las cuales posentrenamos modelos que van desde 1.5B hasta 32B parámetros, utilizando ajuste fino supervisado, ajuste fino por rechazo y aprendizaje por refuerzo. Nuestros resultados experimentales demuestran que los modelos con Ingeniería de Pistas logran mejoras absolutas del 4% y 8% en DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Qwen-1.5B, respectivamente, en cinco conjuntos de datos desafiantes de razonamiento matemático. Además, los modelos con Ingeniería de Pistas utilizan aproximadamente un 30% menos de tokens para el modelo de 32B y un 50% menos de tokens para el modelo de 1.5B en comparación con los modelos de lenguaje natural. Los modelos y el código están disponibles en https://github.com/ChengpengLi1003/CoRT.
English
Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable
progress in natural language reasoning with long chain-of-thought (CoT), yet
they remain inefficient or inaccurate when handling complex mathematical
operations. Addressing these limitations through computational tools (e.g.,
computation libraries and symbolic solvers) is promising, but it introduces a
technical challenge: Code Interpreter (CI) brings external knowledge beyond the
model's internal text representations, thus the direct combination is not
efficient. This paper introduces CoRT, a post-training framework for teaching
LRMs to leverage CI effectively and efficiently. As a first step, we address
the data scarcity issue by synthesizing code-integrated reasoning data through
Hint-Engineering, which strategically inserts different hints at appropriate
positions to optimize LRM-CI interaction. We manually create 30 high-quality
samples, upon which we post-train models ranging from 1.5B to 32B parameters,
with supervised fine-tuning, rejection fine-tuning and reinforcement learning.
Our experimental results demonstrate that Hint-Engineering models achieve 4\%
and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and
DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging
mathematical reasoning datasets. Furthermore, Hint-Engineering models use about
30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model
compared with the natural language models. The models and code are available at
https://github.com/ChengpengLi1003/CoRT.