ChatPaper.aiChatPaper

Het verbeteren van autonome AI-agenten met reflectieve boomzoekmethoden en zelflerendheid.

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

October 2, 2024
Auteurs: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI

Samenvatting

Autonome agenten hebben aanzienlijk potentieel aangetoond in het automatiseren van complexe meerstapsbeslissingstaken. Echter, zelfs geavanceerde visie-taalmodellen (VLM's), zoals GPT-4o, komen nog steeds tekort in prestaties op menselijk niveau, met name in ingewikkelde webomgevingen en langetermijnplanningstaken. Om deze beperkingen aan te pakken, introduceren we Reflective Monte Carlo Tree Search (R-MCTS), een nieuw algoritme voor testtijd dat is ontworpen om de mogelijkheden van AI-agenten, bijvoorbeeld aangedreven door GPT-4o, te verbeteren om beslissingsruimte dynamisch te verkennen. R-MCTS breidt traditionele MCTS uit door 1) contrastieve reflectie op te nemen, waardoor agenten kunnen leren van eerdere interacties en hun zoekefficiëntie dynamisch kunnen verbeteren; en 2) door het gebruik van multi-agent debat voor betrouwbare toestandsbeoordeling. Bovendien verbeteren we de prestaties van de agent door GPT-4o te verfijnen via zelfleren, met behulp van door R-MCTS gegenereerde boomtraversals zonder enige door mensen verstrekte labels. Op de uitdagende VisualWebArena-benchmark behaalt onze op GPT-4o gebaseerde R-MCTS-agent een relatieve verbetering van 6% tot 30% over verschillende taken in vergelijking met de vorige stand van de techniek. Bovendien tonen we aan dat de kennis die is opgedaan tijdens de zoektocht op testtijd effectief kan worden overgedragen naar GPT-4o via verfijning. De verfijnde GPT-4o evenaart 97% van de prestaties van R-MCTS en vermindert het gebruik van berekeningen met een factor vier op testtijd. Bovendien tonen kwalitatieve resultaten aan dat het verfijnde GPT-4o-model de mogelijkheid heeft om de omgeving te verkennen, een toestand te evalueren en terug te gaan naar haalbare wanneer het detecteert dat de huidige toestand niet tot succes kan leiden. Bovendien toont ons werk de eigenschappen van schaalvergroting van berekeningen in zowel training - gegevensverzameling met R-MCTS - als testtijd. Deze resultaten suggereren een veelbelovende onderzoeksrichting om de redenerings- en planningsmogelijkheden van VLM's voor agenttoepassingen te verbeteren via zoekopdrachten op testtijd en zelfleren.
English
Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we introduce Reflective Monte Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Moreover, we improve the agent's performance by fine-tuning GPT-4o through self-learning, using R-MCTS generated tree traversals without any human-provided labels. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the knowledge gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o matches 97% of R-MCTS's performance while reducing compute usage by a factor of four at test time. Furthermore, qualitative results reveal that the fine-tuned GPT-4o model demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success. Moreover, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.

Summary

AI-Generated Summary

PDF92November 16, 2024