T²PO: Control de Exploración Guiado por Incertidumbre para el Aprendizaje por Refuerzo Agéntico Estable en Múltiples Turnos

Resumen

Los recientes avances en el aprendizaje por refuerzo (RL) de múltiples turnos han mejorado significativamente el rendimiento de los LLMs de razonamiento en tareas interactivas complejas. A pesar de los avances en técnicas de estabilización, como la asignación de crédito de grano fino y el filtrado de trayectorias, la inestabilidad sigue siendo generalizada y a menudo conduce al colapso del entrenamiento. Sostenemos que esta inestabilidad surge de una exploración ineficiente en entornos de múltiples turnos, donde las políticas continúan generando acciones de baja información que no reducen la incertidumbre ni avanzan en el progreso de la tarea. Para abordar este problema, proponemos la Optimización de Políticas a Nivel de Token y de Turno (T²PO), un marco consciente de la incertidumbre que controla explícitamente la exploración a niveles de grano fino. A nivel de token, T²PO monitorea la dinámica de la incertidumbre y activa una intervención de pensamiento una vez que el cambio marginal de incertidumbre cae por debajo de un umbral. A nivel de turno, T²PO identifica interacciones con un progreso de exploración insignificante y remuestrea dinámicamente dichos turnos para evitar rollouts desperdiciados. Evaluamos T²PO en diversos entornos, incluyendo WebShop, ALFWorld y Search QA, demostrando ganancias sustanciales en la estabilidad del entrenamiento y mejoras de rendimiento con una mejor eficiencia de exploración. El código está disponible en: https://github.com/WillDreamer/T2PO.

English

Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse. We argue that this instability stems from inefficient exploration in multi-turn settings, where policies continue to generate low-information actions that neither reduce uncertainty nor advance task progress. To address this issue, we propose Token- and Turn-level Policy Optimization (T^2PO), an uncertainty-aware framework that explicitly controls exploration at fine-grained levels. At the token level, T^2PO monitors uncertainty dynamics and triggers a thinking intervention once the marginal uncertainty change falls below a threshold. At the turn level, T^2PO identifies interactions with negligible exploration progress and dynamically resamples such turns to avoid wasted rollouts. We evaluate T^2PO in diverse environments, including WebShop, ALFWorld, and Search QA, demonstrating substantial gains in training stability and performance improvements with better exploration efficiency. Code is available at: https://github.com/WillDreamer/T2PO.

T²PO: Control de Exploración Guiado por Incertidumbre para el Aprendizaje por Refuerzo Agéntico Estable en Múltiples Turnos

T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Resumen

Support