Pense Mais para Explorar Melhor: Aprender a Explorar em Contexto através de Aprendizagem por Reforço com Incentivo à Extensão
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
February 12, 2026
Autores: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI
Resumo
A obtenção de uma escala eficaz no momento do teste requer que os modelos se envolvam na **Exploração em Contexto** – a capacidade intrínseca de gerar, verificar e refinar múltiplas hipóteses de raciocínio dentro de um único contexto contínuo. Fundamentada na teoria da **Cobertura de Estados**, nossa análise identifica um gargalo crítico para o desenvolvimento dessa capacidade: embora uma cobertura mais ampla de estados exija trajetórias de raciocínio mais longas, a probabilidade de amostrar tais sequências decai exponencialmente durante a geração autoregressiva, um fenômeno que denominamos de **"Armadilha da Exploração Superficial"**.
Para superar essa lacuna, propomos a **Exploração com Incentivo de Comprimento** (\method). Esta receita simples, porém eficaz, incentiva explicitamente os modelos a explorarem mais por meio de uma recompensa baseada no comprimento, acoplada a uma penalidade por redundância, maximizando assim a cobertura de estados de maneira bifásica. Experimentos abrangentes com diferentes modelos (Qwen3, Llama) demonstram que o \method incentiva efetivamente a exploração em contexto. Como resultado, nosso método alcança uma melhoria média de 4,4% em tarefas do domínio interno e um ganho de 2,7% em benchmarks de domínio externo.
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context.
Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''.
To bridge this gap, we propose Length-Incentivized Exploration(\method).
This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner.
Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration.
As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.