Обучение языковых моделей мышлению кодом
Teaching Language Models to Think in Code
May 11, 2026
Авторы: Hyeon Hwang, Jiwoo Lee, Jaewoo Kang
cs.AI
Аннотация
Интегрированное с инструментами рассуждение (TIR) стало доминирующей парадигмой решения математических задач в языковых моделях, сочетающей рассуждение на естественном языке (ЕЯ) с выполнением кода. Однако такая перемежающаяся структура имеет три ключевых ограничения: код часто выступает в роли постфактум-верификатора, промежуточные вычисления на ЕЯ подвержены ошибкам, а роли ЕЯ и кода перекрываются, не будучи четко разграниченными. Мы предлагаем ThinC (Thinking in Code — Думая кодом) — фреймворк, в котором сам код служит рассуждателем, а не инструментом, вызываемым ЕЯ. Траектория ThinC начинается с краткого этапа планирования на ЕЯ, после чего всё рассуждение разворачивается через блоки кода, соединённые только результатами их выполнения. Мы дистиллируем 12,2 тыс. кодоцентричных траекторий из модели-учителя и обучаем ThinC-1.7B и ThinC-4B с помощью контролируемой донастройки с последующим обучением с подкреплением. ThinC-4B стабильно превосходит все базовые TIR-модели на пяти соревновательных математических бенчмарках и даже превосходит значительно более крупную модель Qwen3-235B-A22B-Thinking. Дальнейший анализ показывает, что ThinC рассуждает через код: 99,2% её финальных ответов основаны на выводе интерпретатора, и модель надёжно восстанавливается после сбоев выполнения кода без промежуточных рассуждений на ЕЯ. Наш код и модели будут скоро опубликованы.
English
Tool-integrated reasoning (TIR) has emerged as a dominant paradigm for mathematical problem solving in language models, combining natural language (NL) reasoning with code execution. However, this interleaved setup has three key limitations: code often acts as a post-hoc verifier, intermediate NL computations are error-prone, and NL and code play overlapping rather than clearly distinct roles. We propose ThinC (Thinking in Code), a framework in which code itself serves as the reasoner rather than as a tool invoked by NL. A ThinC trajectory begins with a brief NL planning step, after which all reasoning unfolds through code blocks connected only by their execution outputs. We distill 12.2k code-centric trajectories from a teacher model and train ThinC-1.7B and ThinC-4B with supervised fine-tuning followed by reinforcement learning. ThinC-4B consistently outperforms every TIR baseline on five competition-level math benchmarks and even surpasses the much larger Qwen3-235B-A22B-Thinking. Further analysis shows that ThinC reasons through code: 99.2% of its final answers are grounded in interpreter output, and the model recovers reliably from code execution failures without intermediate NL reasoning. Our code and models will be released soon.