Agente-R: Treinando Agentes de Modelo de Linguagem para Refletir via Auto-Treinamento Iterativo
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
January 20, 2025
Autores: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen
cs.AI
Resumo
Os agentes de Modelos de Linguagem Grandes (LLMs) são cada vez mais essenciais para lidar com tarefas complexas em ambientes interativos. O trabalho existente concentra-se principalmente em aprimorar o desempenho por meio de clonagem de comportamento de especialistas mais experientes, no entanto, tais abordagens frequentemente falham em aplicações do mundo real, principalmente devido à incapacidade de se recuperar de erros. No entanto, os dados de crítica em nível de passo são difíceis e caros de coletar. Automatizar e construir dinamicamente conjuntos de auto-crítica é, portanto, crucial para capacitar modelos com habilidades de agente inteligente. Neste trabalho, propomos um framework iterativo de auto treinamento, Agente-R, que permite que o Agente de Linguagem reflita em tempo real. Ao contrário de métodos tradicionais que recompensam ou penalizam ações com base na correção, o Agente-R utiliza MCTS para construir dados de treinamento que recuperam trajetórias corretas a partir das errôneas. Um desafio chave da reflexão do agente está na necessidade de revisão oportuna em vez de esperar até o final de uma sequência de ações. Para lidar com isso, introduzimos um mecanismo de construção de crítica orientado por modelo: o modelo de ator identifica o primeiro passo de erro (dentro de sua capacidade atual) em uma trajetória falha. A partir disso, o conectamos com o caminho correto adjacente, que compartilha o mesmo nó pai na árvore. Essa estratégia permite que o modelo aprenda a reflexão com base em sua política atual, resultando em uma melhor eficiência de aprendizado. Para explorar ainda mais a escalabilidade desse paradigma de autoaperfeiçoamento, investigamos o refinamento iterativo das capacidades de correção de erro e construção de conjunto de dados. Nossas descobertas demonstram que o Agente-R melhora continuamente a capacidade do modelo de se recuperar de erros e possibilita a correção oportuna de erros. Experimentos em três ambientes interativos mostram que o Agente-R capacita efetivamente os agentes a corrigir ações errôneas evitando loops, alcançando um desempenho superior em comparação com métodos de referência (+5.59%).
English
Large Language Models (LLMs) agents are increasingly pivotal for addressing
complex tasks in interactive environments. Existing work mainly focuses on
enhancing performance through behavior cloning from stronger experts, yet such
approaches often falter in real-world applications, mainly due to the inability
to recover from errors. However, step-level critique data is difficult and
expensive to collect. Automating and dynamically constructing self-critique
datasets is thus crucial to empowering models with intelligent agent
capabilities. In this work, we propose an iterative self-training framework,
Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional
methods that reward or penalize actions based on correctness, Agent-R leverages
MCTS to construct training data that recover correct trajectories from
erroneous ones. A key challenge of agent reflection lies in the necessity for
timely revision rather than waiting until the end of a rollout. To address
this, we introduce a model-guided critique construction mechanism: the actor
model identifies the first error step (within its current capability) in a
failed trajectory. Starting from it, we splice it with the adjacent correct
path, which shares the same parent node in the tree. This strategy enables the
model to learn reflection based on its current policy, therefore yielding
better learning efficiency. To further explore the scalability of this
self-improvement paradigm, we investigate iterative refinement of both error
correction capabilities and dataset construction. Our findings demonstrate that
Agent-R continuously improves the model's ability to recover from errors and
enables timely error correction. Experiments on three interactive environments
show that Agent-R effectively equips agents to correct erroneous actions while
avoiding loops, achieving superior performance compared to baseline methods
(+5.59%).Summary
AI-Generated Summary