Il Panorama dell'Apprendimento per Rinforzo Agente per i Modelli Linguistici di Grande Dimensione: Una Rassegna
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
September 2, 2025
Autori: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI
Abstract
L'emergere del reinforcement learning agentico (Agentic RL) segna un cambiamento di paradigma rispetto al convenzionale reinforcement learning applicato ai grandi modelli linguistici (LLM RL), ridefinendo i LLM da generatori passivi di sequenze ad agenti autonomi e decisionali integrati in mondi complessi e dinamici. Questo studio formalizza questo cambiamento concettuale contrapponendo i processi decisionali di Markov (MDP) a singolo passo e degenerati dell'LLM-RL con i processi decisionali di Markov parzialmente osservabili (POMDP) temporalmente estesi che definiscono l'Agentic RL. Basandoci su queste fondamenta, proponiamo una tassonomia completa a due livelli: una organizzata attorno alle capacità agentiche fondamentali, tra cui pianificazione, uso di strumenti, memoria, ragionamento, auto-miglioramento e percezione, e l'altra attorno alle loro applicazioni in diversi domini di attività. Centrale alla nostra tesi è che il reinforcement learning funge da meccanismo critico per trasformare queste capacità da moduli statici ed euristici in comportamenti agentici adattivi e robusti. Per supportare e accelerare la ricerca futura, consolidiamo il panorama di ambienti open-source, benchmark e framework in un compendio pratico. Sintetizzando oltre cinquecento lavori recenti, questo studio traccia i contorni di questo campo in rapida evoluzione e mette in luce le opportunità e le sfide che plasmeranno lo sviluppo di agenti AI scalabili e a scopo generale.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm
shift from conventional reinforcement learning applied to large language models
(LLM RL), reframing LLMs from passive sequence generators into autonomous,
decision-making agents embedded in complex, dynamic worlds. This survey
formalizes this conceptual shift by contrasting the degenerate single-step
Markov Decision Processes (MDPs) of LLM-RL with the temporally extended,
partially observable Markov decision processes (POMDPs) that define Agentic RL.
Building on this foundation, we propose a comprehensive twofold taxonomy: one
organized around core agentic capabilities, including planning, tool use,
memory, reasoning, self-improvement, and perception, and the other around their
applications across diverse task domains. Central to our thesis is that
reinforcement learning serves as the critical mechanism for transforming these
capabilities from static, heuristic modules into adaptive, robust agentic
behavior. To support and accelerate future research, we consolidate the
landscape of open-source environments, benchmarks, and frameworks into a
practical compendium. By synthesizing over five hundred recent works, this
survey charts the contours of this rapidly evolving field and highlights the
opportunities and challenges that will shape the development of scalable,
general-purpose AI agents.