Verbesserung autonomer KI-Agenten mit reflektierender Baum-Suche und Selbstlernen.
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
Autoren: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Zusammenfassung
Autonome Agenten haben ein erhebliches Potenzial bei der Automatisierung komplexer mehrstufiger Entscheidungsaufgaben gezeigt. Dennoch erreichen selbst modernste Vision-Sprach-Modelle (VLMs) wie GPT-4o immer noch nicht die Leistung auf menschlichem Niveau, insbesondere in komplexen Webumgebungen und langfristigen Planungsaufgaben. Um diese Einschränkungen zu bewältigen, stellen wir Reflective Monte Carlo Tree Search (R-MCTS) vor, einen neuartigen Testzeit-Algorithmus, der darauf abzielt, die Fähigkeit von KI-Agenten, z. B. basierend auf GPT-4o, zur Erkundung des Entscheidungsraums in Echtzeit zu verbessern. R-MCTS erweitert das traditionelle MCTS, indem es 1) kontrastive Reflexion integriert, was Agenten ermöglicht, aus vergangenen Interaktionen zu lernen und ihre Sucheffizienz dynamisch zu verbessern; und 2) Multi-Agenten-Debatten zur zuverlässigen Zustandsbewertung verwendet. Darüber hinaus verbessern wir die Leistung des Agenten durch Feinabstimmung von GPT-4o durch Selbstlernen, unter Verwendung von von R-MCTS generierten Baumtraversierungen ohne menschliche Labels. Auf dem anspruchsvollen VisualWebArena-Benchmark erzielt unser auf GPT-4o basierender R-MCTS-Agent eine relative Verbesserung von 6% bis 30% bei verschiedenen Aufgaben im Vergleich zum bisherigen Stand der Technik. Darüber hinaus zeigen wir, dass das während der Testzeit gewonnene Wissen effektiv durch Feinabstimmung zurück auf GPT-4o übertragen werden kann. Das feinabgestimmte GPT-4o erreicht 97% der Leistung von R-MCTS und reduziert den Rechenaufwand zur Testzeit um den Faktor vier. Darüber hinaus zeigen qualitative Ergebnisse, dass das feinabgestimmte GPT-4o-Modell die Fähigkeit besitzt, die Umgebung zu erkunden, einen Zustand zu bewerten und zu lebensfähigen Zuständen zurückzukehren, wenn er erkennt, dass der aktuelle Zustand nicht zum Erfolg führen kann. Unsere Arbeit zeigt außerdem die Skalierungseigenschaften im Rechenbetrieb sowohl während des Trainings - der Datensammlung mit R-MCTS - als auch zur Testzeit. Diese Ergebnisse deuten auf eine vielversprechende Forschungsrichtung hin, um die Denk- und Planungsfähigkeiten von VLMs für agentische Anwendungen durch Testzeit-Suche und Selbstlernen zu verbessern.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.Summary
AI-Generated Summary