더 오래 생각하여 더 깊이 탐색하라: 길이 인센티브 강화 학습을 통한 인-컨텍스트 탐색 방법 학습
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
February 12, 2026
저자: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI
초록
효과적인 테스트 타임 스케일링을 달성하려면 모델이 단일 연속 컨텍스트 내에서 여러 추론 가설을 생성, 검증 및 정제하는 내재적 능력인 In-Context Exploration(문맥 내 탐색)을 수행해야 합니다.
State Coverage(상태 커버리지) 이론에 기반한 우리의 분석은 이러한 능력 활성화의 핵심 병목현상을 규명합니다. 즉, 더 넓은 상태 커버리지는 더 긴 추론 경로를 필요로 하지만, 이러한 시퀀스를 샘플링할 확률은 자기회귀 생성 과정에서 기하급수적으로 감소하는데, 우리는 이 현상을 'Shallow Exploration Trap(피상적 탐색 함정)'이라 명명합니다.
이 격차를 해소하기 위해 우리는 Length-Incentivized Exploration(\method)을 제안합니다.
이 간단하면서도 효과적인 기법은 길이 기반 보상과 중복 패널티를 결합해 모델이 더 많이 탐색하도록 명시적으로 장려함으로써, 2단계 방식으로 상태 커버리지를 극대화합니다.
다양한 모델(Qwen3, Llama)을 대상으로 한 포괄적인 실험을 통해 \method가 문맥 내 탐색을 효과적으로 촉진함을 입증했습니다.
그 결과, 우리 방법은 도메인 내 작업에서 평균 4.4%, 도메인 외 벤치마크에서 2.7%의 성능 향상을 달성했습니다.
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context.
Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''.
To bridge this gap, we propose Length-Incentivized Exploration(\method).
This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner.
Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration.
As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.