ChatPaper.aiChatPaper

Ландшафт агентного обучения с подкреплением для больших языковых моделей: Обзор

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

September 2, 2025
Авторы: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
cs.AI

Аннотация

Появление агентного обучения с подкреплением (Agentic RL) знаменует собой смену парадигмы по сравнению с традиционным обучением с подкреплением, применяемым к большим языковым моделям (LLM RL), переосмысливая LLM как не пассивные генераторы последовательностей, а автономные агенты, принимающие решения в сложных, динамичных мирах. В этом обзоре мы формализуем эту концептуальную смену, противопоставляя вырожденные одношаговые марковские процессы принятия решений (MDP) в LLM-RL и временно расширенные, частично наблюдаемые марковские процессы принятия решений (POMDP), которые определяют Agentic RL. Основываясь на этом, мы предлагаем всеобъемлющую двустороннюю таксономию: одна организована вокруг ключевых агентных способностей, включая планирование, использование инструментов, память, рассуждение, самосовершенствование и восприятие, а другая — вокруг их применения в различных предметных областях. Центральной идеей нашей работы является то, что обучение с подкреплением служит критическим механизмом для преобразования этих способностей из статических, эвристических модулей в адаптивное, устойчивое агентное поведение. Для поддержки и ускорения будущих исследований мы консолидируем ландшафт открытых сред, бенчмарков и фреймворков в практический справочник. Синтезируя более пятисот последних работ, этот обзор очерчивает контуры этой быстро развивающейся области и выделяет возможности и вызовы, которые будут формировать развитие масштабируемых, универсальных ИИ-агентов.
English
The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm shift from conventional reinforcement learning applied to large language models (LLM RL), reframing LLMs from passive sequence generators into autonomous, decision-making agents embedded in complex, dynamic worlds. This survey formalizes this conceptual shift by contrasting the degenerate single-step Markov Decision Processes (MDPs) of LLM-RL with the temporally extended, partially observable Markov decision processes (POMDPs) that define Agentic RL. Building on this foundation, we propose a comprehensive twofold taxonomy: one organized around core agentic capabilities, including planning, tool use, memory, reasoning, self-improvement, and perception, and the other around their applications across diverse task domains. Central to our thesis is that reinforcement learning serves as the critical mechanism for transforming these capabilities from static, heuristic modules into adaptive, robust agentic behavior. To support and accelerate future research, we consolidate the landscape of open-source environments, benchmarks, and frameworks into a practical compendium. By synthesizing over five hundred recent works, this survey charts the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose AI agents.
PDF1352September 3, 2025