Agente-R: Treinando Agentes de Modelo de Linguagem para Refletir via Auto-Treinamento IterativoAgent-R: Training Language Model Agents to Reflect via Iterative
Self-Training
Os agentes de Modelos de Linguagem Grandes (LLMs) são cada vez mais essenciais para lidar com tarefas complexas em ambientes interativos. O trabalho existente concentra-se principalmente em aprimorar o desempenho por meio de clonagem de comportamento de especialistas mais experientes, no entanto, tais abordagens frequentemente falham em aplicações do mundo real, principalmente devido à incapacidade de se recuperar de erros. No entanto, os dados de crítica em nível de passo são difíceis e caros de coletar. Automatizar e construir dinamicamente conjuntos de auto-crítica é, portanto, crucial para capacitar modelos com habilidades de agente inteligente. Neste trabalho, propomos um framework iterativo de auto treinamento, Agente-R, que permite que o Agente de Linguagem reflita em tempo real. Ao contrário de métodos tradicionais que recompensam ou penalizam ações com base na correção, o Agente-R utiliza MCTS para construir dados de treinamento que recuperam trajetórias corretas a partir das errôneas. Um desafio chave da reflexão do agente está na necessidade de revisão oportuna em vez de esperar até o final de uma sequência de ações. Para lidar com isso, introduzimos um mecanismo de construção de crítica orientado por modelo: o modelo de ator identifica o primeiro passo de erro (dentro de sua capacidade atual) em uma trajetória falha. A partir disso, o conectamos com o caminho correto adjacente, que compartilha o mesmo nó pai na árvore. Essa estratégia permite que o modelo aprenda a reflexão com base em sua política atual, resultando em uma melhor eficiência de aprendizado. Para explorar ainda mais a escalabilidade desse paradigma de autoaperfeiçoamento, investigamos o refinamento iterativo das capacidades de correção de erro e construção de conjunto de dados. Nossas descobertas demonstram que o Agente-R melhora continuamente a capacidade do modelo de se recuperar de erros e possibilita a correção oportuna de erros. Experimentos em três ambientes interativos mostram que o Agente-R capacita efetivamente os agentes a corrigir ações errôneas evitando loops, alcançando um desempenho superior em comparação com métodos de referência (+5.59%).