Optimisation des Politiques par Renforcement Agentique
Agentic Reinforced Policy Optimization
July 26, 2025
papers.authors: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
papers.abstract
L'apprentissage par renforcement à grande échelle avec récompenses vérifiables (RLVR) a démontré son efficacité pour exploiter le potentiel des grands modèles de langage (LLMs) dans des tâches de raisonnement en un seul tour. Dans des scénarios de raisonnement réalistes, les LLMs peuvent souvent utiliser des outils externes pour faciliter les processus de résolution de tâches. Cependant, les algorithmes de renforcement actuels équilibrent insuffisamment les capacités intrinsèques de raisonnement à long terme des modèles et leur maîtrise des interactions multi-tours avec les outils. Pour combler cette lacune, nous proposons l'Optimisation de Politique par Renforcement Agentique (ARPO), un nouvel algorithme de renforcement agentique conçu pour entraîner des agents basés sur des LLMs multi-tours. À travers des expériences préliminaires, nous observons que les LLMs ont tendance à présenter un comportement très incertain, caractérisé par une augmentation de la distribution d'entropie des tokens générés, immédiatement après des interactions avec des outils externes. Motivés par cette observation, ARPO intègre un mécanisme de déploiement adaptatif basé sur l'entropie, équilibrant dynamiquement l'échantillonnage global des trajectoires et l'échantillonnage au niveau des étapes, favorisant ainsi l'exploration aux étapes présentant une incertitude élevée après l'utilisation d'outils. En intégrant une estimation de l'attribution d'avantage, ARPO permet aux LLMs d'intérioriser les différences d'avantage dans les interactions étape par étape avec les outils. Nos expériences sur 13 benchmarks exigeants dans les domaines du raisonnement computationnel, du raisonnement basé sur les connaissances et de la recherche approfondie démontrent la supériorité d'ARPO par rapport aux algorithmes de renforcement au niveau des trajectoires. De manière remarquable, ARPO améliore les performances en utilisant seulement la moitié du budget d'utilisation d'outils requis par les méthodes existantes, offrant une solution évolutive pour aligner les agents basés sur des LLMs avec des environnements dynamiques en temps réel. Notre code et nos jeux de données sont disponibles à l'adresse https://github.com/dongguanting/ARPO.
English
Large-scale reinforcement learning with verifiable rewards (RLVR) has
demonstrated its effectiveness in harnessing the potential of large language
models (LLMs) for single-turn reasoning tasks. In realistic reasoning
scenarios, LLMs can often utilize external tools to assist in task-solving
processes. However, current RL algorithms inadequately balance the models'
intrinsic long-horizon reasoning capabilities and their proficiency in
multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced
Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training
multi-turn LLM-based agents. Through preliminary experiments, we observe that
LLMs tend to exhibit highly uncertain behavior, characterized by an increase in
the entropy distribution of generated tokens, immediately following
interactions with external tools. Motivated by this observation, ARPO
incorporates an entropy-based adaptive rollout mechanism, dynamically balancing
global trajectory sampling and step-level sampling, thereby promoting
exploration at steps with high uncertainty after tool usage. By integrating an
advantage attribution estimation, ARPO enables LLMs to internalize advantage
differences in stepwise tool-use interactions. Our experiments across 13
challenging benchmarks in computational reasoning, knowledge reasoning, and
deep search domains demonstrate ARPO's superiority over trajectory-level RL
algorithms. Remarkably, ARPO achieves improved performance using only half of
the tool-use budget required by existing methods, offering a scalable solution
for aligning LLM-based agents with real-time dynamic environments. Our code and
datasets are released at https://github.com/dongguanting/ARPO