ChatPaper.aiChatPaper

Думай дольше, исследуй глубже: обучение исследованию в контексте с помощью RL со стимулированием длины

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

February 12, 2026
Авторы: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI

Аннотация

Для достижения эффективного масштабирования во время тестирования модели должны обладать способностью к Исследованию в Контексте — внутренней возможностью генерировать, проверять и уточнять множественные гипотезы рассуждений в рамках единого непрерывного контекста. Основываясь на теории Покрытия Состояний, наш анализ выявляет ключевое ограничение для реализации этой способности: хотя более широкое покрытие состояний требует более длинных траекторий рассуждений, вероятность сэмплирования таких последовательностей экспоненциально затухает в процессе авторегрессионной генерации — феномен, который мы называем «Ловушкой Поверхностного Исследования». Для преодоления этого разрыва мы предлагаем метод Исследования со Стимулированием Длины (\method). Этот простой, но эффективный подход явно поощряет модели к более активному исследованию за счёт вознаграждения, основанного на длине, в сочетании со штрафом за избыточность, тем самым максимизируя покрытие состояний двухэтапным способом. Комплексные эксперименты с различными моделями (Qwen3, Llama) демонстрируют, что \method эффективно стимулирует исследование в контексте. В результате наш метод обеспечивает среднее улучшение на 4.4% на внутридоменных задачах и прирост на 2.7% на внедоменных бенчмарках.
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context. Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''. To bridge this gap, we propose Length-Incentivized Exploration(\method). This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner. Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration. As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.
PDF242February 14, 2026