O Panorama do Aprendizado por Reforço Agente para LLMs: Uma Análise
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
September 2, 2025
Autores: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI
Resumo
O surgimento do aprendizado por reforço agentivo (Agentic RL) marca uma mudança de paradigma em relação ao aprendizado por reforço convencional aplicado a modelos de linguagem de grande escala (LLM RL), redefinindo os LLMs de geradores passivos de sequências para agentes autônomos e tomadores de decisão inseridos em mundos complexos e dinâmicos. Este estudo formaliza essa mudança conceitual ao contrastar os Processos de Decisão Markovianos (MDPs) degenerados de passo único do LLM-RL com os Processos de Decisão Markovianos Parcialmente Observáveis (POMDPs) temporalmente estendidos que definem o Agentic RL. Com base nessa fundamentação, propomos uma taxonomia abrangente em duas vertentes: uma organizada em torno de capacidades agentivas centrais, incluindo planejamento, uso de ferramentas, memória, raciocínio, autodesenvolvimento e percepção, e outra em torno de suas aplicações em diversos domínios de tarefas. Central à nossa tese está a ideia de que o aprendizado por reforço serve como o mecanismo crítico para transformar essas capacidades de módulos estáticos e heurísticos em comportamentos agentivos adaptativos e robustos. Para apoiar e acelerar pesquisas futuras, consolidamos o panorama de ambientes de código aberto, benchmarks e frameworks em um compêndio prático. Ao sintetizar mais de quinhentos trabalhos recentes, este estudo traça os contornos desse campo em rápida evolução e destaca as oportunidades e desafios que moldarão o desenvolvimento de agentes de IA escaláveis e de propósito geral.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm
shift from conventional reinforcement learning applied to large language models
(LLM RL), reframing LLMs from passive sequence generators into autonomous,
decision-making agents embedded in complex, dynamic worlds. This survey
formalizes this conceptual shift by contrasting the degenerate single-step
Markov Decision Processes (MDPs) of LLM-RL with the temporally extended,
partially observable Markov decision processes (POMDPs) that define Agentic RL.
Building on this foundation, we propose a comprehensive twofold taxonomy: one
organized around core agentic capabilities, including planning, tool use,
memory, reasoning, self-improvement, and perception, and the other around their
applications across diverse task domains. Central to our thesis is that
reinforcement learning serves as the critical mechanism for transforming these
capabilities from static, heuristic modules into adaptive, robust agentic
behavior. To support and accelerate future research, we consolidate the
landscape of open-source environments, benchmarks, and frameworks into a
practical compendium. By synthesizing over five hundred recent works, this
survey charts the contours of this rapidly evolving field and highlights the
opportunities and challenges that will shape the development of scalable,
general-purpose AI agents.