Het Landschap van Agent-gebaseerd Reinforcement Learning voor LLM's: Een Overzicht
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
September 2, 2025
Auteurs: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI
Samenvatting
De opkomst van agentisch reinforcement learning (Agentic RL) markeert een paradigmaverschuiving ten opzichte van conventioneel reinforcement learning toegepast op grote taalmodellen (LLM RL), waarbij LLMs worden herkaderd van passieve sequentiegeneratoren naar autonome, besluitvormende agents die zijn ingebed in complexe, dynamische werelden. Dit overzicht formaliseert deze conceptuele verschuiving door de gedegenereerde enkelstaps Markov Decision Processes (MDPs) van LLM-RL te contrasteren met de temporeel uitgebreide, gedeeltelijk observeerbare Markov decision processes (POMDPs) die Agentic RL definiëren. Op basis van deze fundering stellen we een uitgebreide tweeledige taxonomie voor: één georganiseerd rond kernagentische capaciteiten, waaronder planning, gereedschapsgebruik, geheugen, redeneren, zelfverbetering en perceptie, en de andere rond hun toepassingen in diverse taakdomeinen. Centraal in onze these staat dat reinforcement learning het kritieke mechanisme is voor het transformeren van deze capaciteiten van statische, heuristische modules naar adaptief, robuust agentisch gedrag. Om toekomstig onderzoek te ondersteunen en te versnellen, consolideren we het landschap van open-source omgevingen, benchmarks en frameworks in een praktisch compendium. Door meer dan vijfhonderd recente werken te synthetiseren, schetst dit overzicht de contouren van dit snel evoluerende veld en belicht het de kansen en uitdagingen die de ontwikkeling van schaalbare, algemene AI-agents zullen vormgeven.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm
shift from conventional reinforcement learning applied to large language models
(LLM RL), reframing LLMs from passive sequence generators into autonomous,
decision-making agents embedded in complex, dynamic worlds. This survey
formalizes this conceptual shift by contrasting the degenerate single-step
Markov Decision Processes (MDPs) of LLM-RL with the temporally extended,
partially observable Markov decision processes (POMDPs) that define Agentic RL.
Building on this foundation, we propose a comprehensive twofold taxonomy: one
organized around core agentic capabilities, including planning, tool use,
memory, reasoning, self-improvement, and perception, and the other around their
applications across diverse task domains. Central to our thesis is that
reinforcement learning serves as the critical mechanism for transforming these
capabilities from static, heuristic modules into adaptive, robust agentic
behavior. To support and accelerate future research, we consolidate the
landscape of open-source environments, benchmarks, and frameworks into a
practical compendium. By synthesizing over five hundred recent works, this
survey charts the contours of this rapidly evolving field and highlights the
opportunities and challenges that will shape the development of scalable,
general-purpose AI agents.