Het verbeteren van autonome AI-agenten met reflectieve boomzoekmethoden en zelflerendheid.
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
Auteurs: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Samenvatting
Autonome agenten hebben aanzienlijk potentieel aangetoond in het automatiseren van complexe meerstapsbeslissingstaken. Echter, zelfs geavanceerde visie-taalmodellen (VLM's), zoals GPT-4o, komen nog steeds tekort in prestaties op menselijk niveau, met name in ingewikkelde webomgevingen en langetermijnplanningstaken. Om deze beperkingen aan te pakken, introduceren we Reflective Monte Carlo Tree Search (R-MCTS), een nieuw algoritme voor testtijd dat is ontworpen om de mogelijkheden van AI-agenten, bijvoorbeeld aangedreven door GPT-4o, te verbeteren om beslissingsruimte dynamisch te verkennen. R-MCTS breidt traditionele MCTS uit door 1) contrastieve reflectie op te nemen, waardoor agenten kunnen leren van eerdere interacties en hun zoekefficiëntie dynamisch kunnen verbeteren; en 2) door het gebruik van multi-agent debat voor betrouwbare toestandsbeoordeling. Bovendien verbeteren we de prestaties van de agent door GPT-4o te verfijnen via zelfleren, met behulp van door R-MCTS gegenereerde boomtraversals zonder enige door mensen verstrekte labels. Op de uitdagende VisualWebArena-benchmark behaalt onze op GPT-4o gebaseerde R-MCTS-agent een relatieve verbetering van 6% tot 30% over verschillende taken in vergelijking met de vorige stand van de techniek. Bovendien tonen we aan dat de kennis die is opgedaan tijdens de zoektocht op testtijd effectief kan worden overgedragen naar GPT-4o via verfijning. De verfijnde GPT-4o evenaart 97% van de prestaties van R-MCTS en vermindert het gebruik van berekeningen met een factor vier op testtijd. Bovendien tonen kwalitatieve resultaten aan dat het verfijnde GPT-4o-model de mogelijkheid heeft om de omgeving te verkennen, een toestand te evalueren en terug te gaan naar haalbare wanneer het detecteert dat de huidige toestand niet tot succes kan leiden. Bovendien toont ons werk de eigenschappen van schaalvergroting van berekeningen in zowel training - gegevensverzameling met R-MCTS - als testtijd. Deze resultaten suggereren een veelbelovende onderzoeksrichting om de redenerings- en planningsmogelijkheden van VLM's voor agenttoepassingen te verbeteren via zoekopdrachten op testtijd en zelfleren.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.Summary
AI-Generated Summary