ChatPaper.aiChatPaper

Piensa más para explorar mejor: Aprender a explorar en contexto mediante aprendizaje por refuerzo incentivado por longitud

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

February 12, 2026
Autores: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI

Resumen

Lograr un escalado efectivo durante la prueba requiere que los modelos realicen una Exploración Contextual Inmediata (In-Context Exploration) — la capacidad intrínseca de generar, verificar y refinar múltiples hipótesis de razonamiento dentro de un único contexto continuo. Basándonos en la teoría de Cobertura de Estados, nuestro análisis identifica un cuello de botella crítico para habilitar esta capacidad: si bien una cobertura de estados más amplia requiere trayectorias de razonamiento más largas, la probabilidad de muestrear dichas secuencias decae exponencialmente durante la generación autoregresiva, un fenómeno que denominamos la "Trampa de Exploración Superficial" (Shallow Exploration Trap). Para salvar esta brecha, proponemos la Exploración con Incentivo de Longitud (\method). Esta receta simple pero efectiva incentiva explícitamente a los modelos a explorar más mediante una recompensa basada en la longitud junto con una penalización por redundancia, maximizando así la cobertura de estados en un proceso de dos pasos. Experimentos exhaustivos en diferentes modelos (Qwen3, Llama) demuestran que \method incentiva efectivamente la exploración contextual inmediata. Como resultado, nuestro método logra una mejora promedio del 4.4% en tareas dentro del dominio y una ganancia del 2.7% en benchmarks fuera del dominio.
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context. Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''. To bridge this gap, we propose Length-Incentivized Exploration(\method). This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner. Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration. As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.
PDF242February 14, 2026