Pensa Più a Lungo per Esplorare Più a Fondo: Imparare a Esplorare In-Contesto Tramite Apprendimento per Rinforzo con Incentivazione della Lunghezza

Abstract

Il raggiungimento di un ridimensionamento efficace al momento del test richiede che i modelli si impegnino in un'Esplorazione Contestuale – l'abilità intrinseca di generare, verificare e affinare molteplici ipotesi di ragionamento all'interno di un singolo contesto continuo. Basandoci sulla teoria della Copertura degli Stati, la nostra analisi identifica un collo di bottiglia critico per abilitare questa capacità: sebbene una copertura più ampia degli stati richieda traiettorie di ragionamento più lunghe, la probabilità di campionare tali sequenze decade esponenzialmente durante la generazione autoregressiva, un fenomeno che definiamo "Trappola dell'Esplorazione Superficiale". Per colmare questa lacuna, proponiamo l'Esplorazione con Incentivazione della Lunghezza (\method). Questa ricetta semplice ma efficace incoraggia esplicitamente i modelli a esplorare di più attraverso una ricompensa basata sulla lunghezza abbinata a una penalità per ridondanza, massimizzando così la copertura degli stati in un processo a due fasi. Esperimenti completi su diversi modelli (Qwen3, Llama) dimostrano che \method incentiva efficacemente l'esplorazione contestuale. Di conseguenza, il nostro metodo ottiene un miglioramento medio del 4,4% sui task in-dominio e un guadagno del 2,7% sui benchmark out-of-domain.

English

Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context. Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''. To bridge this gap, we propose Length-Incentivized Exploration(\method). This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner. Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration. As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.

Pensa Più a Lungo per Esplorare Più a Fondo: Imparare a Esplorare In-Contesto Tramite Apprendimento per Rinforzo con Incentivazione della Lunghezza

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Abstract

Support