Escalonamento de Agentes Autônomos por meio de Modelagem Automática de Recompensas e Planejamento
Scaling Autonomous Agents via Automatic Reward Modeling And Planning
February 17, 2025
Autores: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em uma variedade de tarefas de geração de texto. No entanto, os LLMs ainda enfrentam dificuldades com problemas que exigem tomada de decisão em múltiplas etapas e feedback ambiental, como compras online, raciocínio científico e resolução de problemas matemáticos. Diferentemente de dados puramente textuais, a coleta de dados em larga escala para tomada de decisão é desafiadora. Além disso, muitos LLMs poderosos são acessíveis apenas por meio de APIs, o que dificulta seu ajuste fino para tarefas de agentes devido a custos e complexidade. Para abordar as limitações dos agentes baseados em LLMs, propomos um framework que pode aprender automaticamente um modelo de recompensa a partir do ambiente sem anotações humanas. Esse modelo pode ser usado para avaliar as trajetórias de ação dos agentes LLMs e fornecer heurísticas para o planejamento de tarefas. Especificamente, nossa abordagem envolve empregar um agente baseado em LLM para navegar aleatoriamente em um ambiente, gerando diversas trajetórias de ação. Posteriormente, um LLM separado é utilizado para atribuir uma intenção de tarefa e sintetizar uma resposta negativa juntamente com a resposta correta para cada trajetória. Esses triplos (intenção de tarefa, resposta positiva e resposta negativa) são então utilizados como dados de treinamento para otimizar um modelo de recompensa capaz de pontuar trajetórias de ação. A eficácia e a generalizabilidade do nosso framework são demonstradas por meio de avaliações realizadas em diferentes benchmarks de agentes. Em conclusão, o framework proposto representa um avanço significativo na melhoria das capacidades de tomada de decisão dos agentes LLMs. Ao automatizar a aprendizagem de modelos de recompensa, superamos os desafios de escassez de dados e limitações de APIs, potencialmente revolucionando a aplicação de LLMs em ambientes complexos e interativos. Esta pesquisa abre caminho para agentes de IA mais sofisticados, capazes de enfrentar uma ampla gama de problemas do mundo real que exigem tomada de decisão em múltiplas etapas.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
a range of text-generation tasks. However, LLMs still struggle with problems
requiring multi-step decision-making and environmental feedback, such as online
shopping, scientific reasoning, and mathematical problem-solving. Unlike pure
text data, collecting large-scale decision-making data is challenging.
Moreover, many powerful LLMs are only accessible through APIs, which hinders
their fine-tuning for agent tasks due to cost and complexity. To address LLM
agents' limitations, we propose a framework that can automatically learn a
reward model from the environment without human annotations. This model can be
used to evaluate the action trajectories of LLM agents and provide heuristics
for task planning. Specifically, our approach involves employing one LLM-based
agent to navigate an environment randomly, generating diverse action
trajectories. Subsequently, a separate LLM is leveraged to assign a task intent
and synthesize a negative response alongside the correct response for each
trajectory. These triplets (task intent, positive response, and negative
response) are then utilized as training data to optimize a reward model capable
of scoring action trajectories. The effectiveness and generalizability of our
framework are demonstrated through evaluations conducted on different agent
benchmarks. In conclusion, our proposed framework represents a significant
advancement in enhancing LLM agents' decision-making capabilities. By
automating the learning of reward models, we overcome the challenges of data
scarcity and API limitations, potentially revolutionizing the application of
LLMs in complex and interactive environments. This research paves the way for
more sophisticated AI agents capable of tackling a wide range of real-world
problems requiring multi-step decision-making.Summary
AI-Generated Summary