T^2PO: 안정적인 다중 턴 에이전트 강화 학습을 위한 불확실성 기반 탐험 제어
T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
May 4, 2026
저자: Haixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun
cs.AI
초록
최근 다중 턴 강화 학습(RL)의 발전은 복잡한 상호작용 작업에서 추론 LLM의 성능을 크게 향상시켰습니다. 세밀한 신용 할당 및 궤적 필터링과 같은 안정화 기술의 진전에도 불구하고, 불안정성은 여전히 만연하며 종종 학습 붕괴로 이어집니다. 우리는 이러한 불안정성이 다중 턴 환경에서의 비효율적인 탐색에서 비롯된다고 주장합니다. 이 환경에서는 정책이 불확실성을 줄이거나 작업 진행을 촉진하지 않는 낮은 정보의 행동을 계속 생성합니다. 이 문제를 해결하기 위해 우리는 미세 수준에서 탐색을 명시적으로 제어하는 불확실성 인식 프레임워크인 Token- and Turn-level Policy Optimization(T^2PO)을 제안합니다. 토큰 수준에서 T^2PO는 불확실성 동역학을 모니터링하고 한계 불확실성 변화가 임계값 미만으로 떨어지면 사고 개입을 트리거합니다. 턴 수준에서 T^2PO는 탐색 진행이 미미한 상호작용을 식별하고 이러한 턴을 동적으로 재샘플링하여 롤아웟 낭비를 방지합니다. 우리는 T^2PO를 WebShop, ALFWorld, Search QA를 포함한 다양한 환경에서 평가하며, 더 나은 탐색 효율성과 함께 학습 안정성 및 성능 향상에서 상당한 이점을 입증합니다. 코드는 https://github.com/WillDreamer/T2PO에서 확인할 수 있습니다.
English
Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse. We argue that this instability stems from inefficient exploration in multi-turn settings, where policies continue to generate low-information actions that neither reduce uncertainty nor advance task progress. To address this issue, we propose Token- and Turn-level Policy Optimization (T^2PO), an uncertainty-aware framework that explicitly controls exploration at fine-grained levels. At the token level, T^2PO monitors uncertainty dynamics and triggers a thinking intervention once the marginal uncertainty change falls below a threshold. At the turn level, T^2PO identifies interactions with negligible exploration progress and dynamically resamples such turns to avoid wasted rollouts. We evaluate T^2PO in diverse environments, including WebShop, ALFWorld, and Search QA, demonstrating substantial gains in training stability and performance improvements with better exploration efficiency. Code is available at: https://github.com/WillDreamer/T2PO.