Pensar en Cualquier Parte de la Generación de Código

Resumen

Los recientes avances en el razonamiento de los Modelos de Lenguaje a Gran Escala (LLM) se han basado principalmente en el pensamiento anticipado, donde el razonamiento ocurre antes de la respuesta final. Sin embargo, este enfoque adolece de limitaciones críticas en la generación de código, donde el pensamiento anticipado a menudo resulta insuficiente, ya que la complejidad total de los problemas solo se revela durante la implementación del código. Además, no puede asignar esfuerzo de razonamiento de manera adaptativa a lo largo del proceso de generación de código, donde la dificultad varía significativamente. En este artículo, proponemos Think-Anywhere, un novedoso mecanismo de razonamiento que permite a los LLM invocar el pensamiento bajo demanda en cualquier posición de token durante la generación de código. Logramos Think-Anywhere primero enseñando a los LLM a imitar los patrones de razonamiento mediante entrenamiento desde cero (*cold-start*), y luego aprovechando recompensas de aprendizaje por refuerzo basadas en resultados para impulsar la exploración autónoma del modelo sobre cuándo y dónde invocar el razonamiento. Experimentos exhaustivos en cuatro benchmarks principales de generación de código (LeetCode, LiveCodeBench, HumanEval y MBPP) muestran que Think-Anywhere logra un rendimiento de vanguardia, superando tanto a los métodos de razonamiento existentes como a los enfoques recientes de posentrenamiento, mientras demuestra una generalización consistente en diversos LLM. Nuestro análisis revela además que Think-Anywhere permite al modelo invocar el razonamiento de manera adaptativa en posiciones de alta entropía, proporcionando una interpretabilidad mejorada.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Pensar en Cualquier Parte de la Generación de Código

Think Anywhere in Code Generation

Resumen

Support