ChatPaper.aiChatPaper

Penser plus longtemps pour explorer plus profondément : Apprendre à explorer en contexte par renforcement incité par la durée

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

February 12, 2026
papers.authors: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI

papers.abstract

Pour parvenir à une mise à l'échelle efficace au moment des tests, les modèles doivent s'engager dans une Exploration Contextuelle — la capacité intrinsèque à générer, vérifier et affiner plusieurs hypothèses de raisonnement au sein d'un même contexte continu. Fondée sur la théorie de la Couverture d'État, notre analyse identifie un goulot d'étranglement critique pour l'acquisition de cette capacité : bien qu'une couverture d'état plus étendue nécessite des trajectoires de raisonnement plus longues, la probabilité d'échantillonner de telles séquences décroît de manière exponentielle lors de la génération autorégressive, un phénomène que nous nommons le « Piège de l'Exploration Superficielle ». Pour combler cet écart, nous proposons l'Exploration avec Incitation à la Longueur (\method). Cette approche simple mais efficace encourage explicitement les modèles à explorer davantage via une récompense basée sur la longueur, couplée à une pénalité pour redondance, maximisant ainsi la couverture d'état en deux étapes. Des expériences approfondies sur différents modèles (Qwen3, Llama) montrent que \method incite efficacement l'exploration contextuelle. En conséquence, notre méthode obtient une amélioration moyenne de 4,4 % sur les tâches en domaine et un gain de 2,7 % sur des benchmarks hors domaine.
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context. Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''. To bridge this gap, we propose Length-Incentivized Exploration(\method). This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner. Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration. As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.
PDF242February 14, 2026