Überall denken in der Codegenerierung

Zusammenfassung

Jüngste Fortschritte bei reasoning-fähigen Large Language Models (LLMs) basierten hauptsächlich auf vorausschauendem Denken (upfront thinking), bei dem die Argumentation vor der endgültigen Antwort erfolgt. Dieser Ansatz weist jedoch kritische Grenzen in der Code-Generierung auf, wo vorausschauendes Denken oft unzureichend ist, da sich die volle Komplexität von Problemen häufig erst während der Code-Implementierung offenbart. Zudem kann er den Reasoning-Aufwand nicht adaptiv über den Code-Generierungsprozess verteilen, in dem der Schwierigkeitsgrad erheblich variiert. In diesem Artikel stellen wir Think-Anywhere vor, einen neuartigen Reasoning-Mechanismus, der es LLMs ermöglicht, bedarfsgesteuertes Denken an beliebigen Token-Positionen während der Code-Generierung aufzurufen. Wir realisieren Think-Anywhere, indem wir zunächst LLMs durch Cold-Start-Training beibringen, Reasoning-Muster zu imitieren, und dann ergebnisbasierte RL-Belohnungen nutzen, um die autonome Exploration des Modells zu steuern, wann und wo es Reasoning aufruft. Umfangreiche Experimente mit vier etablierten Code-Generierungs-Benchmarks (LeetCode, LiveCodeBench, HumanEval und MBPP) zeigen, dass Think-Anywhere state-of-the-art Leistungen gegenüber bestehenden Reasoning-Methoden und neueren Post-Training-Ansätzen erzielt und dabei eine konsistente Generalisierung über verschiedene LLMs hinweg demonstriert. Unsere Analyse zeigt weiterhin, dass Think-Anywhere es dem Modell ermöglicht, Reasoning adaptiv an Positionen mit hoher Entropie aufzurufen, was eine verbesserte Interpretierbarkeit bietet.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Überall denken in der Codegenerierung

Think Anywhere in Code Generation

Zusammenfassung

Support