Länger denken, um tiefer zu erkunden: In-Kontext-Erkundung lernen durch belohnungsverstärktes Lernen mit Längenanreiz
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
February 12, 2026
papers.authors: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI
papers.abstract
Um effektives Test-Time-Scaling zu erreichen, müssen Modelle zu In-Context Exploration fähig sein – der intrinsischen Fähigkeit, mehrere Reasoning-Hypothesen innerhalb eines einzigen kontinuierlichen Kontexts zu generieren, zu verifizieren und zu verfeinern.
Basierend auf der State-Coverage-Theorie identifiziert unsere Analyse einen kritischen Engpass für diese Fähigkeit: Während eine breitere Zustandsabdeckung längere Reasoning-Pfade erfordert, zerfällt die Wahrscheinlichkeit, solche Sequenzen zu sampeln, während der autoregressiven Generierung exponentiell – ein Phänomen, das wir als „Shallow Exploration Trap“ bezeichnen.
Um diese Lücke zu schließen, schlagen wir Length-Incentivized Exploration (\method) vor.
Dieses einfache, aber effektive Verfahren ermutigt Modelle explizit durch eine längenbasierte Belohnung, gekoppelt mit einer Redundanzstrafe, zu mehr Exploration und maximiert so die Zustandsabdeckung in einem zweistufigen Prozess.
Umfassende Experimente mit verschiedenen Modellen (Qwen3, Llama) zeigen, dass \method In-Context-Exploration effektiv fördert.
Infolgedessen erzielt unsere Methode durchschnittlich eine Verbesserung von 4,4 % bei in-domain Aufgaben und einen Zuwachs von 2,7 % auf out-of-domain Benchmarks.
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context.
Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''.
To bridge this gap, we propose Length-Incentivized Exploration(\method).
This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner.
Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration.
As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.