Agente-R1: Treinamento de Agentes de LLM Poderosos com Aprendizado por Reforço de Ponta a Ponta

Resumo

Os Grandes Modelos de Linguagem (LLMs) estão a ser cada vez mais explorados para a construção de Agentes capazes de interagir ativamente com o ambiente (por exemplo, através do uso de ferramentas) para resolver problemas complexos. A Aprendizagem por Reforço (RL) é considerada uma tecnologia-chave com potencial significativo para treinar tais Agentes; no entanto, a aplicação eficaz da RL a Agentes baseados em LLM ainda se encontra numa fase inicial e enfrenta desafios consideráveis. Atualmente, este campo emergente carece de uma exploração aprofundada de abordagens de RL especificamente adaptadas ao contexto dos Agentes de LLM, juntamente com uma escassez de estruturas de treino flexíveis e facilmente extensíveis concebidas para este fim. Para ajudar a avançar esta área, este artigo revisita e clarifica primeiro as metodologias de Aprendizagem por Reforço para Agentes de LLM, estendendo sistematicamente o quadro de Processo de Decisão de Markov (MDP) para definir de forma abrangente os componentes-chave de um Agente de LLM. Em segundo lugar, introduzimos o Agent-R1, uma estrutura de treino modular, flexível e de utilização intuitiva para Agentes de LLM baseados em RL, concebida para uma adaptação direta a diversos cenários de tarefas e ambientes interativos. Realizámos experiências em tarefas de referência de QA Multihop, fornecendo uma validação inicial da eficácia dos nossos métodos e estrutura propostos.

English

Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.

Agente-R1: Treinamento de Agentes de LLM Poderosos com Aprendizado por Reforço de Ponta a Ponta

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Resumo

Support