Penser de Manière Ubiquiste dans la Génération de Code

Résumé

Les progrès récents en matière de raisonnement des grands modèles de langage (LLM) reposent principalement sur une réflexion préalable, où le raisonnement intervient avant la réponse finale. Cependant, cette approche présente des limites critiques dans la génération de code, où la réflexion préalable s'avère souvent insuffisante car la complexité complète des problèmes ne se révèle qu'à l'implémentation du code. De plus, elle ne peut allouer de manière adaptative l'effort de raisonnement durant le processus de génération de code, où la difficulté varie considérablement. Dans cet article, nous proposons Think-Anywhere, un nouveau mécanisme de raisonnement permettant aux LLMs d'invoquer une réflexion à la demande à n'importe quelle position de token pendant la génération de code. Nous réalisons Think-Anywhere en enseignant d'abord aux LLMs à imiter les schémas de raisonnement via un entraînement initial, puis en exploitant des récompenses par renforcement basées sur les résultats pour conduire l'exploration autonome par le modèle du moment et de l'endroit où invoquer un raisonnement. Des expériences approfondies sur quatre benchmarks majeurs de génération de code (LeetCode, LiveCodeBench, HumanEval et MBPP) montrent que Think-Anywhere obtient des performances à l'état de l'art, surpassant à la fois les méthodes de raisonnement existantes et les approches récentes de post-formation, tout en démontrant une généralisation cohérente sur divers LLMs. Notre analyse révèle en outre que Think-Anywhere permet au modèle d'invoquer de manière adaptative un raisonnement aux positions à forte entropie, offrant ainsi une interprétabilité améliorée.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Penser de Manière Ubiquiste dans la Génération de Code

Think Anywhere in Code Generation

Résumé

Support