Migliorare gli Agenti AI Autonomi con Ricerca a Albero Riflessiva e Autoapprendimento
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
Autori: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Abstract
Gli agenti autonomi hanno dimostrato un notevole potenziale nell'automatizzazione di complesse attività decisionali a più fasi. Tuttavia, anche i modelli visione-linguaggio (VLM), come il GPT-4o, ancora non raggiungono le prestazioni di livello umano, specialmente in ambienti web complessi e attività di pianificazione a lungo termine. Per affrontare queste limitazioni, presentiamo il Reflective Monte Carlo Tree Search (R-MCTS), un algoritmo innovativo progettato per potenziare la capacità degli agenti AI, ad esempio quelli basati su GPT-4o, di esplorare lo spazio decisionale in tempo reale. R-MCTS estende il tradizionale MCTS incorporando 1) la riflessione contrastiva, che consente agli agenti di apprendere dalle interazioni passate e migliorare dinamicamente l'efficienza della ricerca; e 2) utilizzando il dibattito multi-agente per fornire una valutazione dello stato affidabile. Inoltre, miglioriamo le prestazioni dell'agente affinando il GPT-4o attraverso l'auto-apprendimento, utilizzando i percorsi dell'albero generati da R-MCTS senza etichette fornite dall'uomo. Sul difficile benchmark VisualWebArena, il nostro agente basato su GPT-4o con R-MCTS raggiunge un miglioramento relativo del 6% al 30% su varie attività rispetto allo stato dell'arte precedente. Inoltre, dimostriamo che la conoscenza acquisita dalla ricerca in tempo reale può essere efficacemente trasferita indietro a GPT-4o tramite l'affinamento. Il GPT-4o affinato corrisponde al 97% delle prestazioni di R-MCTS riducendo l'utilizzo di calcolo di un fattore di quattro al momento del test. Inoltre, i risultati qualitativi rivelano che il modello GPT-4o affinato dimostra la capacità di esplorare l'ambiente, valutare uno stato e tornare a quelli validi quando rileva che lo stato attuale non può portare al successo. Inoltre, il nostro lavoro dimostra le proprietà di scalabilità del calcolo sia durante l'addestramento - raccolta dati con R-MCTS - che al momento del test. Questi risultati suggeriscono una promettente direzione di ricerca per potenziare la ragionamento e le capacità di pianificazione dei VLM per applicazioni agentiche tramite la ricerca in tempo reale e l'auto-apprendimento.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.