ChatPaper.aiChatPaper

AEM: Adaptive Entropiemodulation für mehrschrittiges agentisches Reinforcement Learning

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

May 8, 2026
Autoren: Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu
cs.AI

Zusammenfassung

Verstärkungslernen (RL) hat die Fähigkeit von Agenten auf Basis großer Sprachmodelle (LLMs), mit ihrer Umgebung zu interagieren und mehrschrittige Aufgaben zu lösen, erheblich verbessert. Allerdings bleibt effektives agentisches RL herausfordernd: Spärliche, nur auf Ergebnisse bezogene Belohnungen bieten nur begrenzte Orientierung für die Kreditzuweisung an einzelne Schritte innerhalb langer Interaktionsverläufe. Bestehende Ansätze führen häufig dichte Zwischensignale ein, wie etwa Prozessbelohnungsmodelle oder zusätzliche selbstüberwachte Signale, was den Überwachungs- und Optimierungsaufwand erhöht und die Generalisierung über Aufgaben und Domänen hinweg einschränken kann. Wir stellen AEM vor, eine überwachungsfreie Methode zur Kreditzuweisung, die die Entropiedynamik während des RL-Trainings adaptiv moduliert, um den Erkundungs-Ausbeutungs-Kompromiss zu verbessern. Da im agentischen RL die Umgebung typischerweise durch eine vollständige Antwort beeinflusst wird – und nicht durch ein einzelnes Token – hebt unsere Analyse die Entropiedynamik von der Token-Ebene auf die Antwort-Ebene an, wodurch die Unsicherheitsschätzung mit der effektiven Aktionsgranularität von LLM-Agenten in Einklang gebracht und die Empfindlichkeit gegenüber Token-Ebenen-Stichprobenrauschen verringert wird. Wir zeigen weiterhin, dass die Entropiedrift unter natürlichen Gradientenaktualisierungen durch die Interaktion zwischen dem Vorteil der abgetasteten Antwort und ihrer relativen Überraschung gesteuert wird. Motiviert durch dieses Ergebnis leitet AEM einen praktischen Unsicherheitsproxy auf Antwortebene ab und nutzt ihn zur Neuskalierung von Vorteilen, wobei das sich entwickelnde Gleichgewicht zwischen positiven und negativen Stichproben genutzt wird, um natürlich von Erkundung zu Ausbeutung überzugehen. Umfangreiche Experimente auf ALFWorld, WebShop und SWE-bench-Verified mit Modellen von 1,5B bis 32B zeigen, dass AEM starke RL-Baselines konsistent verbessert, einschließlich eines Gewinns von +1,4 %, wenn es in ein hochmodernes RL-Trainingsframework für Softwareentwicklung integriert wird.
English
Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.
PDF161May 12, 2026