ChatPaper.aiChatPaper

Melhorando Agentes Autônomos de IA com Busca em Árvore Reflexiva e Autoaprendizagem

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

October 2, 2024
Autores: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI

Resumo

Agentes autônomos têm demonstrado um potencial significativo na automatização de tarefas complexas de tomada de decisão multietapa. No entanto, mesmo os modelos visão-linguagem de última geração (VLMs), como o GPT-4o, ainda não alcançam o desempenho humano, especialmente em ambientes web intricados e tarefas de planejamento de longo prazo. Para lidar com essas limitações, apresentamos o Reflective Monte Carlo Tree Search (R-MCTS), um algoritmo inovador de teste projetado para aprimorar a capacidade de agentes de IA, por exemplo, alimentados pelo GPT-4o, de explorar o espaço de decisão dinamicamente. O R-MCTS estende o MCTS tradicional ao 1) incorporar reflexão constrastiva, permitindo que os agentes aprendam com interações passadas e melhorem dinamicamente sua eficiência de busca; e 2) usar debates multiagentes para fornecer uma avaliação de estado confiável. Além disso, melhoramos o desempenho do agente ajustando o GPT-4o por meio de autoaprendizagem, usando travessias de árvores geradas pelo R-MCTS sem rótulos fornecidos por humanos. No desafiador benchmark VisualWebArena, nosso agente R-MCTS baseado no GPT-4o alcança uma melhoria relativa de 6% a 30% em várias tarefas em comparação com o estado-da-arte anterior. Além disso, mostramos que o conhecimento adquirido na busca em tempo de teste pode ser transferido de volta para o GPT-4o por meio de ajuste fino. O GPT-4o ajustado corresponde a 97% do desempenho do R-MCTS, reduzindo o uso de computação em um fator de quatro no tempo de teste. Além disso, resultados qualitativos revelam que o modelo GPT-4o ajustado demonstra a capacidade de explorar o ambiente, avaliar um estado e retroceder para estados viáveis quando detecta que o estado atual não pode levar ao sucesso. Além disso, nosso trabalho demonstra as propriedades de escalabilidade de computação tanto no treinamento - coleta de dados com R-MCTS - quanto no tempo de teste. Esses resultados sugerem uma direção de pesquisa promissora para aprimorar o raciocínio e as capacidades de planejamento dos VLMs para aplicações agentes por meio da busca em tempo de teste e autoaprendizagem.
English
Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we introduce Reflective Monte Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Moreover, we improve the agent's performance by fine-tuning GPT-4o through self-learning, using R-MCTS generated tree traversals without any human-provided labels. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the knowledge gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o matches 97% of R-MCTS's performance while reducing compute usage by a factor of four at test time. Furthermore, qualitative results reveal that the fine-tuned GPT-4o model demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success. Moreover, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.

Summary

AI-Generated Summary

PDF92November 16, 2024