Die Landschaft des agentenbasierten Verstärkungslernens für LLMs: Ein Überblick
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
September 2, 2025
papers.authors: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI
papers.abstract
Das Aufkommen von agentenbasiertem Reinforcement Learning (Agentic RL) markiert einen Paradigmenwechsel gegenüber dem konventionellen Reinforcement Learning, das auf große Sprachmodelle (LLM RL) angewendet wird. Dabei werden LLMs von passiven Sequenzgeneratoren zu autonomen, entscheidungsfähigen Agenten umgedacht, die in komplexe, dynamische Umgebungen eingebettet sind. Diese Arbeit formalisiert diesen konzeptionellen Wandel, indem sie die degenerierten einstufigen Markov-Entscheidungsprozesse (MDPs) von LLM-RL den zeitlich erweiterten, teilweise beobachtbaren Markov-Entscheidungsprozessen (POMDPs) gegenüberstellt, die Agentic RL definieren. Auf dieser Grundlage schlagen wir eine umfassende zweiteilige Taxonomie vor: eine, die sich um zentrale agentische Fähigkeiten wie Planung, Werkzeugnutzung, Gedächtnis, Schlussfolgerung, Selbstverbesserung und Wahrnehmung organisiert, und eine andere, die sich auf deren Anwendungen in verschiedenen Aufgabenbereichen konzentriert. Kern unserer These ist, dass Reinforcement Learning der entscheidende Mechanismus ist, um diese Fähigkeiten von statischen, heuristischen Modulen in adaptives, robustes agentisches Verhalten zu transformieren. Um zukünftige Forschung zu unterstützen und zu beschleunigen, fassen wir die Landschaft der Open-Source-Umgebungen, Benchmarks und Frameworks in einem praktischen Kompendium zusammen. Durch die Synthese von über fünfhundert aktuellen Arbeiten skizziert diese Arbeit die Konturen dieses sich schnell entwickelnden Feldes und hebt die Chancen und Herausforderungen hervor, die die Entwicklung skalierbarer, allgemeiner KI-Agenten prägen werden.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm
shift from conventional reinforcement learning applied to large language models
(LLM RL), reframing LLMs from passive sequence generators into autonomous,
decision-making agents embedded in complex, dynamic worlds. This survey
formalizes this conceptual shift by contrasting the degenerate single-step
Markov Decision Processes (MDPs) of LLM-RL with the temporally extended,
partially observable Markov decision processes (POMDPs) that define Agentic RL.
Building on this foundation, we propose a comprehensive twofold taxonomy: one
organized around core agentic capabilities, including planning, tool use,
memory, reasoning, self-improvement, and perception, and the other around their
applications across diverse task domains. Central to our thesis is that
reinforcement learning serves as the critical mechanism for transforming these
capabilities from static, heuristic modules into adaptive, robust agentic
behavior. To support and accelerate future research, we consolidate the
landscape of open-source environments, benchmarks, and frameworks into a
practical compendium. By synthesizing over five hundred recent works, this
survey charts the contours of this rapidly evolving field and highlights the
opportunities and challenges that will shape the development of scalable,
general-purpose AI agents.