ChatPaper.aiChatPaper

AEM : Modulation adaptative de l'entropie pour l'apprentissage par renforcement agentique multi-tours

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

May 8, 2026
Auteurs: Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu
cs.AI

Résumé

L'apprentissage par renforcement (RL) a considérablement amélioré la capacité des agents basés sur des modèles de langage de grande taille (LLM) à interagir avec des environnements et à résoudre des tâches multi-tours. Cependant, un RL agentique efficace reste difficile : les récompenses éparses et uniquement basées sur les résultats fournissent un guidage limité pour l'assignation de crédit aux étapes individuelles au sein de longues trajectoires d'interaction. Les approches existantes introduisent souvent une supervision intermédiaire dense, comme des modèles de récompense de processus ou des signaux auxiliaires d'auto-supervision, ce qui augmente la complexité de la supervision et du réglage, et peut limiter la généralisation entre tâches et domaines. Nous présentons AEM, une méthode d'assignation de crédit sans supervision qui module de manière adaptative la dynamique de l'entropie pendant l'entraînement RL pour améliorer le compromis exploration-exploitation. Étant donné qu'en RL agentique l'environnement est généralement affecté par une réponse complète, plutôt que par un jeton individuel, notre analyse élève la dynamique de l'entropie du niveau du jeton au niveau de la réponse, alignant l'estimation de l'incertitude avec la granularité effective des actions des agents LLM et réduisant la sensibilité au bruit d'échantillonnage au niveau des jetons. Nous montrons en outre que la dérive de l'entropie sous des mises à jour à gradient naturel est régie par l'interaction entre l'avantage de la réponse échantillonnée et sa surprise relative. Motivé par ce résultat, AEM dérive un proxy pratique d'incertitude au niveau de la réponse et l'utilise pour rééchelonner les avantages, tirant parti de l'équilibre évolutif entre échantillons positifs et négatifs pour passer naturellement de l'exploration à l'exploitation. Des expériences approfondies sur ALFWorld, WebShop et SWE-bench-Verified avec des modèles allant de 1,5B à 32B démontrent qu'AEM améliore systématiquement les bases RL solides, y compris un gain de +1,4 % lorsqu'il est intégré dans un cadre d'entraînement RL de pointe pour le génie logiciel.
English
Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.
PDF161May 12, 2026