Мыслить в любом месте при генерации кода

Аннотация

Последние достижения в области рассуждающих больших языковых моделей (LLM) в основном основывались на стратегии "заблаговременного размышления", при котором процесс логического вывода происходит до формирования окончательного ответа. Однако этот подход имеет серьезные ограничения в задачах генерации кода, где заблаговременного размышления часто оказывается недостаточно, поскольку полная сложность проблемы раскрывается только в процессе реализации кода. Более того, он не позволяет адаптивно распределять вычислительные усилия на протяжении всего процесса генерации кода, сложность которого может значительно варьироваться. В данной статье мы предлагаем Think-Anywhere — новый механизм рассуждений, который позволяет LLM по требованию запускать процесс размышления на любой позиции токена во время генерации кода. Мы реализуем Think-Anywhere, сначала обучая LLM имитировать паттерны рассуждений с помощью "холодного старта", а затем используя основанные на результате RL-вознаграждения для стимулирования автономного исследования моделью того, когда и где следует запускать процесс рассуждения. Многочисленные эксперименты на четырех основных бенчмарках генерации кода (LeetCode, LiveCodeBench, HumanEval и MBPP) показывают, что Think-Anywhere достигает наилучших результатов по сравнению как с существующими методами рассуждений, так и с недавними подходами пост-обучения, демонстрируя при этом стабильную обобщающую способность для различных LLM. Наш анализ дополнительно показывает, что Think-Anywhere позволяет модели адаптивно запускать рассуждения в позициях с высокой энтропией, обеспечивая повышенную интерпретируемость.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Мыслить в любом месте при генерации кода

Think Anywhere in Code Generation

Аннотация

Support