ChatPaper.aiChatPaper

El Panorama del Aprendizaje por Refuerzo Agéntico para Modelos de Lenguaje de Gran Escala: Una Revisión

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

September 2, 2025
Autores: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI

Resumen

El surgimiento del aprendizaje por refuerzo agentivo (Agentic RL) marca un cambio de paradigma respecto al aprendizaje por refuerzo convencional aplicado a modelos de lenguaje grandes (LLM RL), redefiniendo a los LLMs como agentes autónomos y tomadores de decisiones integrados en mundos complejos y dinámicos, en lugar de generadores pasivos de secuencias. Este estudio formaliza este cambio conceptual contrastando los procesos de decisión de Markov (MDPs) degenerados de un solo paso en LLM-RL con los procesos de decisión de Markov parcialmente observables (POMDPs) temporalmente extendidos que definen el Agentic RL. Sobre esta base, proponemos una taxonomía integral de dos partes: una organizada en torno a capacidades agentivas clave, como planificación, uso de herramientas, memoria, razonamiento, automejora y percepción, y otra centrada en sus aplicaciones en diversos dominios de tareas. Central a nuestra tesis es que el aprendizaje por refuerzo sirve como el mecanismo crítico para transformar estas capacidades de módulos estáticos y heurísticos en comportamientos agentivos adaptativos y robustos. Para apoyar y acelerar la investigación futura, consolidamos el panorama de entornos de código abierto, puntos de referencia y marcos de trabajo en un compendio práctico. Al sintetizar más de quinientos trabajos recientes, este estudio traza los contornos de este campo en rápida evolución y destaca las oportunidades y desafíos que moldearán el desarrollo de agentes de IA escalables y de propósito general.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm shift from conventional reinforcement learning applied to large language models (LLM RL), reframing LLMs from passive sequence generators into autonomous, decision-making agents embedded in complex, dynamic worlds. This survey formalizes this conceptual shift by contrasting the degenerate single-step Markov Decision Processes (MDPs) of LLM-RL with the temporally extended, partially observable Markov decision processes (POMDPs) that define Agentic RL. Building on this foundation, we propose a comprehensive twofold taxonomy: one organized around core agentic capabilities, including planning, tool use, memory, reasoning, self-improvement, and perception, and the other around their applications across diverse task domains. Central to our thesis is that reinforcement learning serves as the critical mechanism for transforming these capabilities from static, heuristic modules into adaptive, robust agentic behavior. To support and accelerate future research, we consolidate the landscape of open-source environments, benchmarks, and frameworks into a practical compendium. By synthesizing over five hundred recent works, this survey charts the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose AI agents.
PDF1352September 3, 2025