Denken op Afstand in Codegeneratie

Samenvatting

Recente vooruitgang in redenerende Large Language Models (LLM's) heeft vooral gesteund op voorafgaand denken, waarbij de redenering plaatsvindt vóór het definitieve antwoord. Deze aanpak kampt echter met kritieke beperkingen bij codegeneratie, waar voorafgaand denken vaak ontoereikend is omdat de volledige complexiteit van problemen zich pas openbaart tijdens de implementatie van de code. Bovendien kan het niet adaptief de redeneerinspanning toewijzen gedurende het codegeneratieproces, waar de moeilijkheidsgraad aanzienlijk varieert. In dit artikel stellen we Think-Anywhere voor, een nieuwe redeneermechanisme dat LLM's in staat stelt om op elk tekenpositie tijdens de codegeneratie on-demand te redeneren. We realiseren Think-Anywhere door eerst LLM's aan te leren de redeneerpatronen te imiteren via cold-start training, en vervolgens outcome-based RL-beloningen te benutten om het model aan te sturen in zijn autonome exploratie van wanneer en waar te redeneren. Uitgebreide experimenten op vier gangbare codegeneratiebenchmarks (namelijk LeetCode, LiveCodeBench, HumanEval en MBPP) tonen aan dat Think-Anywhere state-of-the-art prestaties bereikt, zowel ten opzichte van bestaande redeneermethoden als recente post-training benaderingen, terwijl het consistente generalisatie aantoont over diverse LLM's. Onze analyse laat verder zien dat Think-Anywhere het model in staat stelt om adaptief te redeneren op posities met hoge entropie, wat een verbeterde interpreteerbaarheid biedt.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Denken op Afstand in Codegeneratie

Think Anywhere in Code Generation

Samenvatting

Support