LLM을 위한 에이전트 중심 강화학습의 현황: 조사 연구
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
September 2, 2025
저자: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI
초록
에이전트 강화 학습(Agentic RL)의 등장은 대형 언어 모델(LLM)에 적용된 기존의 강화 학습(LLM RL)과는 패러다임 전환을 의미하며, LLM을 단순한 수동적 시퀀스 생성기에서 복잡하고 동적인 세계에 내재된 자율적 의사결정 에이전트로 재구성합니다. 본 조사는 LLM-RL의 퇴화된 단일 단계 마르코프 결정 과정(MDP)과 Agentic RL을 정의하는 시간적으로 확장된 부분 관측 가능 마르코프 결정 과정(POMDP)을 대조함으로써 이러한 개념적 전환을 공식화합니다. 이를 기반으로, 우리는 두 가지 포괄적인 분류 체계를 제안합니다: 하나는 계획, 도구 사용, 기억, 추론, 자기 개선, 지각 등 핵심 에이전트 능력을 중심으로 구성되고, 다른 하나는 다양한 작업 영역에서의 응용을 중심으로 구성됩니다. 우리의 논문의 핵심은 강화 학습이 이러한 능력을 정적이고 휴리스틱한 모듈에서 적응적이고 견고한 에이전트 행동으로 변환하는 중요한 메커니즘으로 작용한다는 것입니다. 향후 연구를 지원하고 가속화하기 위해, 우리는 오픈소스 환경, 벤치마크, 프레임워크의 풍경을 실용적인 요약집으로 통합합니다. 500편 이상의 최근 연구를 종합함으로써, 본 조사는 이 빠르게 진화하는 분야의 윤곽을 그리며, 확장 가능하고 범용적인 AI 에이전트 개발을 형성할 기회와 도전 과제를 강조합니다.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm
shift from conventional reinforcement learning applied to large language models
(LLM RL), reframing LLMs from passive sequence generators into autonomous,
decision-making agents embedded in complex, dynamic worlds. This survey
formalizes this conceptual shift by contrasting the degenerate single-step
Markov Decision Processes (MDPs) of LLM-RL with the temporally extended,
partially observable Markov decision processes (POMDPs) that define Agentic RL.
Building on this foundation, we propose a comprehensive twofold taxonomy: one
organized around core agentic capabilities, including planning, tool use,
memory, reasoning, self-improvement, and perception, and the other around their
applications across diverse task domains. Central to our thesis is that
reinforcement learning serves as the critical mechanism for transforming these
capabilities from static, heuristic modules into adaptive, robust agentic
behavior. To support and accelerate future research, we consolidate the
landscape of open-source environments, benchmarks, and frameworks into a
practical compendium. By synthesizing over five hundred recent works, this
survey charts the contours of this rapidly evolving field and highlights the
opportunities and challenges that will shape the development of scalable,
general-purpose AI agents.