T^2PO : Contrôle de l'exploration guidé par l'incertitude pour un apprentissage par renforcement agentique multi-tours stable

Résumé

Les progrès récents en apprentissage par renforcement multi-tours (RL) ont significativement amélioré les performances des modèles de langage émetteurs (LLMs) sur des tâches interactives complexes. Malgré les avancées dans les techniques de stabilisation telles que l'attribution de crédit fine et le filtrage des trajectoires, l'instabilité reste omniprésente et mène souvent à un effondrement de l'entraînement. Nous soutenons que cette instabilité provient d'une exploration inefficace dans les cadres multi-tours, où les politiques continuent de générer des actions pauvres en information qui ne réduisent ni l'incertitude ni ne font progresser la tâche. Pour résoudre ce problème, nous proposons l'Optimisation de Politique aux Niveaux Token et Tour (T^2PO), un cadre conscient de l'incertitude qui contrôle explicitement l'exploration à des niveaux fins. Au niveau token, T^2PO surveille la dynamique de l'incertitude et déclenche une intervention de réflexion dès que la variation marginale de l'incertitude tombe sous un seuil. Au niveau tour, T^2PO identifie les interactions avec un progrès d'exploration négligeable et rééchantillonne dynamiquement ces tours pour éviter les déploiements gaspillés. Nous évaluons T^2PO dans divers environnements, incluant WebShop, ALFWorld et Search QA, démontrant des gains substantiels en stabilité d'entraînement et en amélioration des performances avec une meilleure efficacité d'exploration. Le code est disponible à l'adresse : https://github.com/WillDreamer/T2PO.

English

Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse. We argue that this instability stems from inefficient exploration in multi-turn settings, where policies continue to generate low-information actions that neither reduce uncertainty nor advance task progress. To address this issue, we propose Token- and Turn-level Policy Optimization (T^2PO), an uncertainty-aware framework that explicitly controls exploration at fine-grained levels. At the token level, T^2PO monitors uncertainty dynamics and triggers a thinking intervention once the marginal uncertainty change falls below a threshold. At the turn level, T^2PO identifies interactions with negligible exploration progress and dynamically resamples such turns to avoid wasted rollouts. We evaluate T^2PO in diverse environments, including WebShop, ALFWorld, and Search QA, demonstrating substantial gains in training stability and performance improvements with better exploration efficiency. Code is available at: https://github.com/WillDreamer/T2PO.

T^2PO : Contrôle de l'exploration guidé par l'incertitude pour un apprentissage par renforcement agentique multi-tours stable

T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Résumé

Support