Melhorando Agentes Autônomos de IA com Busca em Árvore Reflexiva e Autoaprendizagem

Resumo

Agentes autônomos têm demonstrado um potencial significativo na automatização de tarefas complexas de tomada de decisão multietapa. No entanto, mesmo os modelos visão-linguagem de última geração (VLMs), como o GPT-4o, ainda não alcançam o desempenho humano, especialmente em ambientes web intricados e tarefas de planejamento de longo prazo. Para lidar com essas limitações, apresentamos o Reflective Monte Carlo Tree Search (R-MCTS), um algoritmo inovador de teste projetado para aprimorar a capacidade de agentes de IA, por exemplo, alimentados pelo GPT-4o, de explorar o espaço de decisão dinamicamente. O R-MCTS estende o MCTS tradicional ao 1) incorporar reflexão constrastiva, permitindo que os agentes aprendam com interações passadas e melhorem dinamicamente sua eficiência de busca; e 2) usar debates multiagentes para fornecer uma avaliação de estado confiável. Além disso, melhoramos o desempenho do agente ajustando o GPT-4o por meio de autoaprendizagem, usando travessias de árvores geradas pelo R-MCTS sem rótulos fornecidos por humanos. No desafiador benchmark VisualWebArena, nosso agente R-MCTS baseado no GPT-4o alcança uma melhoria relativa de 6% a 30% em várias tarefas em comparação com o estado-da-arte anterior. Além disso, mostramos que o conhecimento adquirido na busca em tempo de teste pode ser transferido de volta para o GPT-4o por meio de ajuste fino. O GPT-4o ajustado corresponde a 97% do desempenho do R-MCTS, reduzindo o uso de computação em um fator de quatro no tempo de teste. Além disso, resultados qualitativos revelam que o modelo GPT-4o ajustado demonstra a capacidade de explorar o ambiente, avaliar um estado e retroceder para estados viáveis quando detecta que o estado atual não pode levar ao sucesso. Além disso, nosso trabalho demonstra as propriedades de escalabilidade de computação tanto no treinamento - coleta de dados com R-MCTS - quanto no tempo de teste. Esses resultados sugerem uma direção de pesquisa promissora para aprimorar o raciocínio e as capacidades de planejamento dos VLMs para aplicações agentes por meio da busca em tempo de teste e autoaprendizagem.

English

Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we introduce Reflective Monte Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Moreover, we improve the agent's performance by fine-tuning GPT-4o through self-learning, using R-MCTS generated tree traversals without any human-provided labels. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the knowledge gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o matches 97% of R-MCTS's performance while reducing compute usage by a factor of four at test time. Furthermore, qualitative results reveal that the fine-tuned GPT-4o model demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success. Moreover, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.

Melhorando Agentes Autônomos de IA com Busca em Árvore Reflexiva e Autoaprendizagem

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

Resumo

Support