ChatPaper.aiChatPaper

Обучение языковых моделей мышлению кодом

Teaching Language Models to Think in Code

May 11, 2026
Авторы: Hyeon Hwang, Jiwoo Lee, Jaewoo Kang
cs.AI

Аннотация

Интегрированное с инструментами рассуждение (TIR) стало доминирующей парадигмой решения математических задач в языковых моделях, сочетающей рассуждение на естественном языке (ЕЯ) с выполнением кода. Однако такая перемежающаяся структура имеет три ключевых ограничения: код часто выступает в роли постфактум-верификатора, промежуточные вычисления на ЕЯ подвержены ошибкам, а роли ЕЯ и кода перекрываются, не будучи четко разграниченными. Мы предлагаем ThinC (Thinking in Code — Думая кодом) — фреймворк, в котором сам код служит рассуждателем, а не инструментом, вызываемым ЕЯ. Траектория ThinC начинается с краткого этапа планирования на ЕЯ, после чего всё рассуждение разворачивается через блоки кода, соединённые только результатами их выполнения. Мы дистиллируем 12,2 тыс. кодоцентричных траекторий из модели-учителя и обучаем ThinC-1.7B и ThinC-4B с помощью контролируемой донастройки с последующим обучением с подкреплением. ThinC-4B стабильно превосходит все базовые TIR-модели на пяти соревновательных математических бенчмарках и даже превосходит значительно более крупную модель Qwen3-235B-A22B-Thinking. Дальнейший анализ показывает, что ThinC рассуждает через код: 99,2% её финальных ответов основаны на выводе интерпретатора, и модель надёжно восстанавливается после сбоев выполнения кода без промежуточных рассуждений на ЕЯ. Наш код и модели будут скоро опубликованы.
English
Tool-integrated reasoning (TIR) has emerged as a dominant paradigm for mathematical problem solving in language models, combining natural language (NL) reasoning with code execution. However, this interleaved setup has three key limitations: code often acts as a post-hoc verifier, intermediate NL computations are error-prone, and NL and code play overlapping rather than clearly distinct roles. We propose ThinC (Thinking in Code), a framework in which code itself serves as the reasoner rather than as a tool invoked by NL. A ThinC trajectory begins with a brief NL planning step, after which all reasoning unfolds through code blocks connected only by their execution outputs. We distill 12.2k code-centric trajectories from a teacher model and train ThinC-1.7B and ThinC-4B with supervised fine-tuning followed by reinforcement learning. ThinC-4B consistently outperforms every TIR baseline on five competition-level math benchmarks and even surpasses the much larger Qwen3-235B-A22B-Thinking. Further analysis shows that ThinC reasons through code: 99.2% of its final answers are grounded in interpreter output, and the model recovers reliably from code execution failures without intermediate NL reasoning. Our code and models will be released soon.
PDF182May 14, 2026