CoRT : Raisonnement intégré au code dans le processus de pensée
CoRT: Code-integrated Reasoning within Thinking
June 11, 2025
Auteurs: Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu
cs.AI
Résumé
Les grands modèles de raisonnement (Large Reasoning Models, LRMs) tels que o1 et DeepSeek-R1 ont montré des progrès remarquables dans le raisonnement en langage naturel avec des chaînes de pensée (Chain-of-Thought, CoT) longues, mais ils restent inefficaces ou imprécis lorsqu'il s'agit de traiter des opérations mathématiques complexes. Aborder ces limitations à l'aide d'outils de calcul (par exemple, des bibliothèques de calcul et des solveurs symboliques) est prometteur, mais cela introduit un défi technique : l'interpréteur de code (Code Interpreter, CI) apporte des connaissances externes au-delà des représentations textuelles internes du modèle, ce qui rend la combinaison directe inefficace. Cet article présente CoRT, un cadre de post-formation pour enseigner aux LRMs à exploiter efficacement et de manière optimale le CI. Dans un premier temps, nous abordons le problème de la rareté des données en synthétisant des données de raisonnement intégrant du code via l'ingénierie d'indices (Hint-Engineering), qui insère stratégiquement différents indices à des positions appropriées pour optimiser l'interaction LRM-CI. Nous créons manuellement 30 échantillons de haute qualité, sur lesquels nous post-formons des modèles allant de 1,5 milliard à 32 milliards de paramètres, en utilisant un réglage fin supervisé, un réglage fin par rejet et un apprentissage par renforcement. Nos résultats expérimentaux montrent que les modèles basés sur l'ingénierie d'indices obtiennent des améliorations absolues de 4 % et 8 % respectivement sur DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-Qwen-1.5B, sur cinq ensembles de données de raisonnement mathématique complexes. De plus, les modèles basés sur l'ingénierie d'indices utilisent environ 30 % de tokens en moins pour le modèle de 32 milliards et 50 % de tokens en moins pour le modèle de 1,5 milliard par rapport aux modèles de langage naturel. Les modèles et le code sont disponibles à l'adresse https://github.com/ChengpengLi1003/CoRT.
English
Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable
progress in natural language reasoning with long chain-of-thought (CoT), yet
they remain inefficient or inaccurate when handling complex mathematical
operations. Addressing these limitations through computational tools (e.g.,
computation libraries and symbolic solvers) is promising, but it introduces a
technical challenge: Code Interpreter (CI) brings external knowledge beyond the
model's internal text representations, thus the direct combination is not
efficient. This paper introduces CoRT, a post-training framework for teaching
LRMs to leverage CI effectively and efficiently. As a first step, we address
the data scarcity issue by synthesizing code-integrated reasoning data through
Hint-Engineering, which strategically inserts different hints at appropriate
positions to optimize LRM-CI interaction. We manually create 30 high-quality
samples, upon which we post-train models ranging from 1.5B to 32B parameters,
with supervised fine-tuning, rejection fine-tuning and reinforcement learning.
Our experimental results demonstrate that Hint-Engineering models achieve 4\%
and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and
DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging
mathematical reasoning datasets. Furthermore, Hint-Engineering models use about
30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model
compared with the natural language models. The models and code are available at
https://github.com/ChengpengLi1003/CoRT.