AEM: Адаптивная модуляция энтропии для многошагового агентного обучения с подкреплением

Аннотация

Обучение с подкреплением (RL) существенно повысило способность агентов на основе больших языковых моделей (LLM) взаимодействовать с окружениями и решать многошаговые задачи. Однако эффективное RL для агентов остаётся сложной задачей: редкие награды, основанные только на конечном исходе, дают ограниченное руководство для присвоения кредита отдельным шагам в длинных траекториях взаимодействия. Существующие подходы часто вводят плотное промежуточное обучение, такое как модели процессных наград или вспомогательные сигналы самообучения, что увеличивает сложность обучения и настройки, а также может ограничивать обобщение на различные задачи и области. Мы представляем AEM — метод присвоения кредита без дополнительного обучения, который адаптивно модулирует динамику энтропии в процессе RL-обучения для улучшения компромисса между исследованием и эксплуатацией. Поскольку в RL для агентов окружение обычно изменяется под влиянием полного ответа, а не отдельного токена, наш анализ переносит динамику энтропии с уровня токенов на уровень ответов, согласуя оценку неопределённости с эффективной гранулярностью действий LLM-агентов и снижая чувствительность к шуму выборки на уровне токенов. Мы также показываем, что дрейф энтропии при обновлениях естественного градиента определяется взаимодействием между преимуществом выбранного ответа и его относительной неожиданностью. Основываясь на этом результате, AEM выводит практическую прокси-меру неопределённости на уровне ответов и использует её для перемасштабирования преимуществ, используя эволюционирующий баланс между положительными и отрицательными примерами для естественного перехода от исследования к эксплуатации. Обширные эксперименты на ALFWorld, WebShop и SWE-bench-Verified с моделями от 1,5B до 32B показывают, что AEM последовательно улучшает сильные RL-базовые линии, включая прирост в +1,4% при интеграции в передовую среду RL-обучения для программной инженерии.

English

Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.

AEM: Адаптивная модуляция энтропии для многошагового агентного обучения с подкреплением

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

Аннотация

Support