Le Paysage de l'Apprentissage par Renforcement Agentique pour les LLM : Une Revue

papers.abstract

L'émergence de l'apprentissage par renforcement agentique (Agentic RL) marque un changement de paradigme par rapport à l'apprentissage par renforcement conventionnel appliqué aux grands modèles de langage (LLM RL), redéfinissant ces derniers comme des agents autonomes et décisionnaires intégrés dans des mondes complexes et dynamiques, plutôt que comme de simples générateurs passifs de séquences. Cette étude formalise ce changement conceptuel en opposant les processus de décision markoviens (MDP) dégénérés à une seule étape du LLM-RL aux processus de décision markoviens partiellement observables (POMDP) temporellement étendus qui caractérisent l'Agentic RL. Sur cette base, nous proposons une taxonomie exhaustive en deux volets : l'un organisé autour des capacités agentiques fondamentales, incluant la planification, l'utilisation d'outils, la mémoire, le raisonnement, l'auto-amélioration et la perception, et l'autre autour de leurs applications dans divers domaines de tâches. Au cœur de notre thèse réside l'idée que l'apprentissage par renforcement constitue le mécanisme essentiel pour transformer ces capacités de modules statiques et heuristiques en comportements agentiques adaptatifs et robustes. Pour soutenir et accélérer les recherches futures, nous consolidons l'écosystème des environnements open source, des benchmarks et des cadres d'application en un compendium pratique. En synthétisant plus de cinq cents travaux récents, cette étude trace les contours de ce domaine en évolution rapide et met en lumière les opportunités et les défis qui façonneront le développement d'agents d'intelligence artificielle généralistes et évolutifs.

English

The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm shift from conventional reinforcement learning applied to large language models (LLM RL), reframing LLMs from passive sequence generators into autonomous, decision-making agents embedded in complex, dynamic worlds. This survey formalizes this conceptual shift by contrasting the degenerate single-step Markov Decision Processes (MDPs) of LLM-RL with the temporally extended, partially observable Markov decision processes (POMDPs) that define Agentic RL. Building on this foundation, we propose a comprehensive twofold taxonomy: one organized around core agentic capabilities, including planning, tool use, memory, reasoning, self-improvement, and perception, and the other around their applications across diverse task domains. Central to our thesis is that reinforcement learning serves as the critical mechanism for transforming these capabilities from static, heuristic modules into adaptive, robust agentic behavior. To support and accelerate future research, we consolidate the landscape of open-source environments, benchmarks, and frameworks into a practical compendium. By synthesizing over five hundred recent works, this survey charts the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose AI agents.

Le Paysage de l'Apprentissage par Renforcement Agentique pour les LLM : Une Revue

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

papers.abstract

Support