CoRT: Razonamiento Integrado en Código dentro del Pensamiento

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) como o1 y DeepSeek-R1 han mostrado avances notables en el razonamiento del lenguaje natural con cadenas de pensamiento (CoT) extensas, pero siguen siendo ineficientes o imprecisos al manejar operaciones matemáticas complejas. Abordar estas limitaciones mediante herramientas computacionales (por ejemplo, bibliotecas de cálculo y solucionadores simbólicos) es prometedor, pero introduce un desafío técnico: el Intérprete de Código (CI) aporta conocimiento externo más allá de las representaciones de texto internas del modelo, por lo que la combinación directa no es eficiente. Este artículo presenta CoRT, un marco de posentrenamiento para enseñar a los LRMs a aprovechar el CI de manera efectiva y eficiente. Como primer paso, abordamos la escasez de datos sintetizando datos de razonamiento integrados con código mediante Ingeniería de Pistas (Hint-Engineering), que inserta estratégicamente diferentes pistas en posiciones adecuadas para optimizar la interacción LRM-CI. Creamos manualmente 30 muestras de alta calidad, sobre las cuales posentrenamos modelos que van desde 1.5B hasta 32B parámetros, utilizando ajuste fino supervisado, ajuste fino por rechazo y aprendizaje por refuerzo. Nuestros resultados experimentales demuestran que los modelos con Ingeniería de Pistas logran mejoras absolutas del 4% y 8% en DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Qwen-1.5B, respectivamente, en cinco conjuntos de datos desafiantes de razonamiento matemático. Además, los modelos con Ingeniería de Pistas utilizan aproximadamente un 30% menos de tokens para el modelo de 32B y un 50% menos de tokens para el modelo de 1.5B en comparación con los modelos de lenguaje natural. Los modelos y el código están disponibles en https://github.com/ChengpengLi1003/CoRT.

English

Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model's internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.

CoRT: Razonamiento Integrado en Código dentro del Pensamiento

CoRT: Code-integrated Reasoning within Thinking

Resumen

Support