AEM: マルチターン・エージェント強化学習のための適応的エントロピー変調
AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
May 8, 2026
著者: Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu
cs.AI
要旨
強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と対話し、マルチターンタスクを解決する能力を大幅に向上させてきた。しかし、効果的なエージェントRLは依然として困難である。疎な報酬のみでは、長い相互作用軌跡内の個々のステップにクレジットを割り当てるための指針が限られる。既存の手法は、プロセス報酬モデルや補助的な自己教師あり信号など、密な中間的監督を導入することが多く、これにより監督とチューニングの複雑さが増し、タスクやドメインを越えた一般化が制限される可能性がある。本論文では、RL訓練中にエントロピー動的を適応的に変調し、探索と活用のトレードオフを改善する、監督不要のクレジット割り当て手法AEMを提案する。エージェントRLでは、環境は通常、個々のトークンではなく、完全な応答によって影響を受けるため、我々の解析はエントロピー動的をトークンレベルから応答レベルに引き上げ、不確実性推定をLLMエージェントの有効なアクション粒度に整合させ、トークンレベルのサンプリングノイズに対する感度を低減する。さらに、自然勾配更新下でのエントロピー・ドリフトが、サンプリングされた応答のアドバンテージとその相対的な驚き度(surprisal)との相互作用によって支配されることを示す。この結果に動機づけられ、AEMは実用的な応答レベルの不確実性プロキシを導出し、それを用いてアドバンテージを再スケーリングすることで、正と負のサンプル間の進化するバランスを活用し、探索から活用への自然な移行を実現する。ALFWorld、WebShop、SWE-bench-Verifiedにおいて、1.5Bから32Bまでのモデルを用いた広範な実験により、AEMが強力なRLベースラインを一貫して改善し、最先端のソフトウェアエンジニアリングRL訓練フレームワークに統合した場合には+1.4%の向上を達成することを実証する。
English
Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.