CoRT: Ragionamento integrato nel codice all'interno del pensiero
CoRT: Code-integrated Reasoning within Thinking
June 11, 2025
Autori: Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu
cs.AI
Abstract
I Large Reasoning Models (LRM) come o1 e DeepSeek-R1 hanno mostrato progressi significativi nel ragionamento in linguaggio naturale con lunghe catene di pensiero (CoT), ma rimangono inefficienti o imprecisi nel gestire operazioni matematiche complesse. Affrontare queste limitazioni attraverso strumenti computazionali (ad esempio, librerie di calcolo e risolutori simbolici) è promettente, ma introduce una sfida tecnica: il Code Interpreter (CI) porta conoscenze esterne oltre le rappresentazioni testuali interne del modello, rendendo così la combinazione diretta inefficiente. Questo articolo introduce CoRT, un framework di post-training per insegnare agli LRM a sfruttare il CI in modo efficace ed efficiente. Come primo passo, affrontiamo il problema della scarsità di dati sintetizzando dati di ragionamento integrati con codice attraverso l'Hint-Engineering, che inserisce strategicamente diversi suggerimenti in posizioni appropriate per ottimizzare l'interazione LRM-CI. Creiamo manualmente 30 campioni di alta qualità, sui quali eseguiamo il post-training di modelli che vanno da 1,5B a 32B parametri, con fine-tuning supervisionato, fine-tuning con rifiuto e apprendimento per rinforzo. I nostri risultati sperimentali dimostrano che i modelli Hint-Engineering raggiungono miglioramenti assoluti del 4% e dell'8% rispettivamente su DeepSeek-R1-Distill-Qwen-32B e DeepSeek-R1-Distill-Qwen-1.5B, su cinque dataset impegnativi di ragionamento matematico. Inoltre, i modelli Hint-Engineering utilizzano circa il 30% in meno di token per il modello da 32B e il 50% in meno di token per il modello da 1,5B rispetto ai modelli in linguaggio naturale. I modelli e il codice sono disponibili su https://github.com/ChengpengLi1003/CoRT.
English
Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable
progress in natural language reasoning with long chain-of-thought (CoT), yet
they remain inefficient or inaccurate when handling complex mathematical
operations. Addressing these limitations through computational tools (e.g.,
computation libraries and symbolic solvers) is promising, but it introduces a
technical challenge: Code Interpreter (CI) brings external knowledge beyond the
model's internal text representations, thus the direct combination is not
efficient. This paper introduces CoRT, a post-training framework for teaching
LRMs to leverage CI effectively and efficiently. As a first step, we address
the data scarcity issue by synthesizing code-integrated reasoning data through
Hint-Engineering, which strategically inserts different hints at appropriate
positions to optimize LRM-CI interaction. We manually create 30 high-quality
samples, upon which we post-train models ranging from 1.5B to 32B parameters,
with supervised fine-tuning, rejection fine-tuning and reinforcement learning.
Our experimental results demonstrate that Hint-Engineering models achieve 4\%
and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and
DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging
mathematical reasoning datasets. Furthermore, Hint-Engineering models use about
30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model
compared with the natural language models. The models and code are available at
https://github.com/ChengpengLi1003/CoRT.