Pense em Qualquer Lugar na Geração de Código

Resumo

Os recentes avanços em modelos de linguagem grandes (LLMs) com capacidades de raciocínio têm dependido principalmente do pensamento antecipado, onde o raciocínio ocorre antes da resposta final. No entanto, esta abordagem sofre de limitações críticas na geração de código, onde o pensamento antecipado é frequentemente insuficiente, uma vez que a complexidade total dos problemas só se revela durante a implementação do código. Além disso, ela não consegue alocar esforço de raciocínio de forma adaptativa ao longo do processo de geração de código, onde a dificuldade varia significativamente. Neste artigo, propomos o Think-Anywhere, um novo mecanismo de raciocínio que permite aos LLMs invocar o pensamento sob demanda em qualquer posição de token durante a geração de código. Alcançamos o Think-Anywhere primeiro ensinando os LLMs a imitar os padrões de raciocínio através de treino *cold-start*, e depois aproveitando recompensas de RL baseadas em resultados para conduzir a exploração autónoma do modelo sobre quando e onde invocar o raciocínio. Experiências extensas em quatro *benchmarks* principais de geração de código (ou seja, LeetCode, LiveCodeBench, HumanEval e MBPP) mostram que o Think-Anywhere alcança um desempenho de ponta em relação tanto aos métodos de raciocínio existentes como às abordagens recentes de pós-treinamento, demonstrando ao mesmo tempo uma generalização consistente em diversos LLMs. A nossa análise revela ainda que o Think-Anywhere permite ao modelo invocar o raciocínio de forma adaptativa em posições de alta entropia, proporcionando uma interpretabilidade aprimorada.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Pense em Qualquer Lugar na Geração de Código

Think Anywhere in Code Generation

Resumo

Support