ChatPaper.aiChatPaper

Agent-R1: Addestramento di Agenti LLM Potenti con Apprendimento per Rinforzo End-to-End

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

November 18, 2025
Autori: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più oggetto di studio per la creazione di Agenti in grado di interagire attivamente con l'ambiente (ad esempio, tramite l'uso di strumenti) per risolvere problemi complessi. L'Apprendimento per Rinforzo (RL) è considerato una tecnologia chiave con un potenziale significativo per l'addestramento di tali Agenti; tuttavia, l'applicazione efficace del RL agli Agenti basati su LLM è ancora nelle fasi iniziali e affronta sfide considerevoli. Attualmente, questo campo emergente manca di un'esplorazione approfondita degli approcci RL specificamente studiati per il contesto degli Agenti LLM, unitamente a una scarsità di framework di addestramento flessibili e facilmente estensibili progettati a questo scopo. Per contribuire a far progredire quest'area, questo articolo in primo luogo rivisita e chiarisce le metodologie di Apprendimento per Rinforzo per Agenti LLM, estendendo sistematicamente il framework del Processo Decisionale di Markov (MDP) per definire in modo completo i componenti chiave di un Agente LLM. In secondo luogo, introduciamo Agent-R1, un framework di addestramento modulare, flessibile e user-friendly per Agenti LLM basati su RL, progettato per un adattamento semplice a diversi scenari di compito e ambienti interattivi. Abbiamo condotto esperimenti su task di benchmark di QA Multihop, fornendo una prima validazione dell'efficacia dei nostri metodi e framework proposti.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.
PDF172December 1, 2025