CoRT: Интеграция кода в процесс рассуждений при мышлении

Аннотация

Крупные модели рассуждений (Large Reasoning Models, LRMs), такие как o1 и DeepSeek-R1, продемонстрировали значительный прогресс в естественно-языковых рассуждениях с длинными цепочками мыслей (Chain-of-Thought, CoT), однако они остаются неэффективными или неточными при выполнении сложных математических операций. Решение этих ограничений с помощью вычислительных инструментов (например, библиотек вычислений и символьных решателей) является перспективным, но оно ставит перед нами техническую задачу: Интерпретатор кода (Code Interpreter, CI) предоставляет внешние знания, выходящие за рамки внутренних текстовых представлений модели, что делает прямое сочетание неэффективным. В данной статье представлен CoRT, посттренировочный фреймворк, который обучает LRMs эффективно и результативно использовать CI. В качестве первого шага мы решаем проблему нехватки данных, синтезируя данные для рассуждений с интегрированным кодом с помощью Hint-Engineering, который стратегически вставляет различные подсказки в нужные места для оптимизации взаимодействия LRM-CI. Мы вручную создаем 30 высококачественных образцов, на основе которых посттренируем модели с количеством параметров от 1,5 млрд до 32 млрд, используя контролируемую тонкую настройку, тонкую настройку с отбраковкой и обучение с подкреплением. Наши экспериментальные результаты показывают, что модели, обученные с помощью Hint-Engineering, достигают абсолютного улучшения на 4% и 8% для DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Qwen-1.5B соответственно на пяти сложных наборах данных для математических рассуждений. Кроме того, модели с Hint-Engineering используют примерно на 30% меньше токенов для 32-миллиардной модели и на 50% меньше токенов для 1,5-миллиардной модели по сравнению с моделями, работающими с естественным языком. Модели и код доступны по адресу https://github.com/ChengpengLi1003/CoRT.

English

Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model's internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.