AEM: Adaptieve Entropiemodulatie voor Multi-Turn Agentisch Reinforcement Learning

Samenvatting

Reinforcement learning (RL) heeft het vermogen van grote taalmodellen (LLM's) om te interacteren met omgevingen en meerstapstaken op te lossen aanzienlijk verbeterd. Effectieve agentische RL blijft echter uitdagend: schaarse alleen-uitkomstbeloningen bieden beperkte begeleiding voor het toewijzen van credit aan afzonderlijke stappen binnen lange interactietrajecten. Bestaande benaderingen introduceren vaak dichte tussentijdse supervisie, zoals procesbeloningsmodellen of aanvullende zelfgesuperviseerde signalen, wat de supervisie- en afstelcomplexiteit vergroot en de generalisatie over taken en domeinen kan beperken. Wij presenteren AEM, een credit-toewijzingsmethode zonder supervisie die de entropiedynamiek tijdens RL-training adaptief moduleert om de exploratie-exploitatietrade-off te verbeteren. Omdat in agentische RL de omgeving typisch wordt beïnvloed door een volledige respons, en niet door een individuele token, verplaatst onze analyse de entropiedynamiek van het tokenniveau naar het responsniveau, waardoor de onzekerheidsschatting wordt afgestemd op de effectieve actiegranulariteit van LLM-agenten en de gevoeligheid voor token-niveausamplingruis wordt verminderd. Verder tonen we aan dat entropiedrift onder natuurlijke gradiëntupdates wordt geregeld door de interactie tussen de advantage van de gesamplede respons en de relatieve verrassing ervan. Gemotiveerd door dit resultaat leidt AEM een praktische responsniveau-onzekerheidsproxy af en gebruikt deze om advantages te herschalen, waarbij de evoluerende balans tussen positieve en negatieve monsters wordt benut om op natuurlijke wijze over te gaan van exploratie naar exploitatie. Uitgebreide experimenten op ALFWorld, WebShop en SWE-bench-Verified met modellen variërend van 1.5B tot 32B tonen aan dat AEM consequent sterke RL-baselines verbetert, waaronder een winst van +1,4% bij integratie in een state-of-the-art raamwerk voor RL-training in software-engineering.

English

Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.