CoRT : Raisonnement intégré au code dans le processus de pensée

Résumé

Les grands modèles de raisonnement (Large Reasoning Models, LRMs) tels que o1 et DeepSeek-R1 ont montré des progrès remarquables dans le raisonnement en langage naturel avec des chaînes de pensée (Chain-of-Thought, CoT) longues, mais ils restent inefficaces ou imprécis lorsqu'il s'agit de traiter des opérations mathématiques complexes. Aborder ces limitations à l'aide d'outils de calcul (par exemple, des bibliothèques de calcul et des solveurs symboliques) est prometteur, mais cela introduit un défi technique : l'interpréteur de code (Code Interpreter, CI) apporte des connaissances externes au-delà des représentations textuelles internes du modèle, ce qui rend la combinaison directe inefficace. Cet article présente CoRT, un cadre de post-formation pour enseigner aux LRMs à exploiter efficacement et de manière optimale le CI. Dans un premier temps, nous abordons le problème de la rareté des données en synthétisant des données de raisonnement intégrant du code via l'ingénierie d'indices (Hint-Engineering), qui insère stratégiquement différents indices à des positions appropriées pour optimiser l'interaction LRM-CI. Nous créons manuellement 30 échantillons de haute qualité, sur lesquels nous post-formons des modèles allant de 1,5 milliard à 32 milliards de paramètres, en utilisant un réglage fin supervisé, un réglage fin par rejet et un apprentissage par renforcement. Nos résultats expérimentaux montrent que les modèles basés sur l'ingénierie d'indices obtiennent des améliorations absolues de 4 % et 8 % respectivement sur DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-Qwen-1.5B, sur cinq ensembles de données de raisonnement mathématique complexes. De plus, les modèles basés sur l'ingénierie d'indices utilisent environ 30 % de tokens en moins pour le modèle de 32 milliards et 50 % de tokens en moins pour le modèle de 1,5 milliard par rapport aux modèles de langage naturel. Les modèles et le code sont disponibles à l'adresse https://github.com/ChengpengLi1003/CoRT.

English

Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model's internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.