Le Paysage de l'Apprentissage par Renforcement Agentique pour les LLM : Une Revue
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
September 2, 2025
papers.authors: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI
papers.abstract
L'émergence de l'apprentissage par renforcement agentique (Agentic RL) marque un changement de paradigme par rapport à l'apprentissage par renforcement conventionnel appliqué aux grands modèles de langage (LLM RL), redéfinissant ces derniers comme des agents autonomes et décisionnaires intégrés dans des mondes complexes et dynamiques, plutôt que comme de simples générateurs passifs de séquences. Cette étude formalise ce changement conceptuel en opposant les processus de décision markoviens (MDP) dégénérés à une seule étape du LLM-RL aux processus de décision markoviens partiellement observables (POMDP) temporellement étendus qui caractérisent l'Agentic RL. Sur cette base, nous proposons une taxonomie exhaustive en deux volets : l'un organisé autour des capacités agentiques fondamentales, incluant la planification, l'utilisation d'outils, la mémoire, le raisonnement, l'auto-amélioration et la perception, et l'autre autour de leurs applications dans divers domaines de tâches. Au cœur de notre thèse réside l'idée que l'apprentissage par renforcement constitue le mécanisme essentiel pour transformer ces capacités de modules statiques et heuristiques en comportements agentiques adaptatifs et robustes. Pour soutenir et accélérer les recherches futures, nous consolidons l'écosystème des environnements open source, des benchmarks et des cadres d'application en un compendium pratique. En synthétisant plus de cinq cents travaux récents, cette étude trace les contours de ce domaine en évolution rapide et met en lumière les opportunités et les défis qui façonneront le développement d'agents d'intelligence artificielle généralistes et évolutifs.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm
shift from conventional reinforcement learning applied to large language models
(LLM RL), reframing LLMs from passive sequence generators into autonomous,
decision-making agents embedded in complex, dynamic worlds. This survey
formalizes this conceptual shift by contrasting the degenerate single-step
Markov Decision Processes (MDPs) of LLM-RL with the temporally extended,
partially observable Markov decision processes (POMDPs) that define Agentic RL.
Building on this foundation, we propose a comprehensive twofold taxonomy: one
organized around core agentic capabilities, including planning, tool use,
memory, reasoning, self-improvement, and perception, and the other around their
applications across diverse task domains. Central to our thesis is that
reinforcement learning serves as the critical mechanism for transforming these
capabilities from static, heuristic modules into adaptive, robust agentic
behavior. To support and accelerate future research, we consolidate the
landscape of open-source environments, benchmarks, and frameworks into a
practical compendium. By synthesizing over five hundred recent works, this
survey charts the contours of this rapidly evolving field and highlights the
opportunities and challenges that will shape the development of scalable,
general-purpose AI agents.