AEM: Modulación de Entropía Adaptativa para el Aprendizaje por Refuerzo Agéntico Multiturno
AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
May 8, 2026
Autores: Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha mejorado sustancialmente la capacidad de los agentes basados en modelos de lenguaje grandes (LLM) para interactuar con entornos y resolver tareas de múltiples pasos. Sin embargo, el RL efectivo en agentes sigue siendo un desafío: las recompensas dispersas basadas únicamente en resultados proporcionan una guía limitada para asignar crédito a pasos individuales dentro de trayectorias de interacción largas. Los enfoques existentes suelen introducir supervisión intermedia densa, como modelos de recompensa de procesos o señales auxiliares auto-supervisadas, lo que aumenta la complejidad de la supervisión y el ajuste, y puede limitar la generalización entre tareas y dominios. Presentamos AEM, un método de asignación de crédito sin supervisión que modula dinámicamente la entropía durante el entrenamiento de RL para mejorar el equilibrio entre exploración y explotación. Dado que, en el RL de agentes, el entorno suele verse afectado por una respuesta completa, en lugar de un token individual, nuestro análisis eleva las dinámicas de entropía del nivel de token al nivel de respuesta, alineando la estimación de incertidumbre con la granularidad efectiva de las acciones de los agentes LLM y reduciendo la sensibilidad al ruido de muestreo a nivel de token. Además, demostramos que la deriva de entropía bajo actualizaciones de gradiente natural está gobernada por la interacción entre la ventaja de la respuesta muestreada y su sorpresa relativa. Motivados por este resultado, AEM deriva un proxy práctico de incertidumbre a nivel de respuesta y lo utiliza para reescalar las ventajas, aprovechando el equilibrio evolutivo entre muestras positivas y negativas para transitar naturalmente de la exploración a la explotación. Experimentos exhaustivos en ALFWorld, WebShop y SWE-bench-Verified con modelos que van desde 1.5B hasta 32B demuestran que AEM mejora consistentemente los baselines fuertes de RL, incluyendo una ganancia de +1.4% cuando se integra en un marco de entrenamiento de RL de última generación para ingeniería de software.
English
Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.