Pensare Ovunque nella Generazione di Codice

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) per il ragionamento si sono basati principalmente sul *pensiero anticipato*, in cui il ragionamento avviene prima della risposta finale. Tuttavia, questo approccio presenta limitazioni critiche nella generazione di codice, dove il pensiero anticipato è spesso insufficiente poiché la complessità completa dei problemi si rivela solo durante l'implementazione del codice. Inoltre, non è in grado di allocare adattativamente lo sforzo di ragionamento durante il processo di generazione del codice, dove la difficoltà varia significativamente. In questo articolo, proponiamo Think-Anywhere, un nuovo meccanismo di ragionamento che consente agli LLM di invocare il pensiero on-demand in qualsiasi posizione token durante la generazione del codice. Realizziamo Think-Anywhere prima insegnando agli LLM a imitare i pattern di ragionamento attraverso un addestramento *cold-start*, per poi sfruttare ricompense RL basate sui risultati per guidare l'esplorazione autonoma del modello su quando e dove invocare il ragionamento. Esperimenti estesi su quattro benchmark principali di generazione di codice (ovvero LeetCode, LiveCodeBench, HumanEval e MBPP) mostrano che Think-Anywhere raggiunge prestazioni allo stato dell'arte sia rispetto ai metodi di ragionamento esistenti che agli approcci recenti di *post-training*, dimostrando al contempo una generalizzazione coerente su diversi LLM. La nostra analisi rivela inoltre che Think-Anywhere consente al modello di invocare adattivamente il ragionamento in posizioni ad alta entropia, fornendo una migliore interpretabilità.

English

Recent advances in reasoning Large Language Models (LLMs) have primarily relied on upfront thinking, where reasoning occurs before final answer. However, this approach suffers from critical limitations in code generation, where upfront thinking is often insufficient as problems' full complexity only reveals itself during code implementation. Moreover, it cannot adaptively allocate reasoning effort throughout the code generation process where difficulty varies significantly. In this paper, we propose Think-Anywhere, a novel reasoning mechanism that enables LLMs to invoke thinking on-demand at any token position during code generation. We achieve Think-Anywhere by first teaching LLMs to imitate the reasoning patterns through cold-start training, then leveraging outcome-based RL rewards to drive the model's autonomous exploration of when and where to invoke reasoning. Extensive experiments on four mainstream code generation benchmarks (i.e., LeetCode, LiveCodeBench, HumanEval, and MBPP) show that Think-Anywhere achieves state-of-the-art performance over both existing reasoning methods and recent post-training approaches, while demonstrating consistent generalization across diverse LLMs. Our analysis further reveals that Think-Anywhere enables the model to adaptively invoke reasoning at high-entropy positions, providing enhanced interpretability.

Pensare Ovunque nella Generazione di Codice

Think Anywhere in Code Generation

Abstract

Support