Langer Denken om Dieper te Verkennen: In-Context Verkenning Leren via Lengte-gestimuleerde Versterkingsleren

Samenvatting

Het bereiken van effectieve schaling tijdens testtijd vereist dat modellen In-Context Exploratie kunnen toepassen – het intrinsieke vermogen om meerdere redeneerhypothesen binnen één doorlopende context te genereren, verifiëren en verfijnen. Gegrond in de State Coverage-theorie identificeert onze analyse een kritieke bottleneck voor het mogelijk maken van deze capaciteit: hoewel een bredere state coverage langere redeneertrajecten vereist, vervalt de kans om dergelijke sequenties te bemonsteren exponentieel tijdens autoregressieve generatie, een fenomeen dat wij de "Shallow Exploration Trap" noemen. Om deze kloof te overbruggen, stellen wij Length-Incentivized Exploration (\method) voor. Dit eenvoudige maar effectieve recept moedigt modellen expliciet aan om meer te exploreren via een op lengte gebaseerde beloning in combinatie met een straf voor redundantie, waardoor de state coverage op een tweeledige manier wordt gemaximaliseerd. Uitgebreide experimenten met verschillende modellen (Qwen3, Llama) tonen aan dat \method in-context exploratie effectief stimuleert. Hierdoor behaalt onze methode een gemiddelde verbetering van 4,4% op in-domeintaken en een winst van 2,7% op out-of-domain benchmarks.

English

Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context. Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''. To bridge this gap, we propose Length-Incentivized Exploration(\method). This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner. Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration. As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.

Langer Denken om Dieper te Verkennen: In-Context Verkenning Leren via Lengte-gestimuleerde Versterkingsleren

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Samenvatting

Support