Amélioration des Agents IA Autonomes avec la Recherche Arborescente Réflexive et l'Auto-apprentissage
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
Auteurs: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Résumé
Les agents autonomes ont démontré un potentiel significatif dans l'automatisation des tâches complexes de prise de décision multi-étapes. Cependant, même les modèles vision-langage de pointe (VLM), tels que GPT-4o, restent en deçà des performances humaines, notamment dans des environnements web complexes et des tâches de planification à long terme. Pour remédier à ces limitations, nous introduisons la Recherche d'Arbre de Monte Carlo Réflexive (R-MCTS), un algorithme novateur conçu pour améliorer la capacité des agents IA, par exemple alimentés par GPT-4o, à explorer l'espace de décision en temps réel. R-MCTS étend le MCTS traditionnel en 1) incorporant une réflexion contrastive, permettant aux agents d'apprendre des interactions passées et d'améliorer dynamiquement leur efficacité de recherche ; et 2) en utilisant un débat multi-agent pour fournir une évaluation d'état fiable. De plus, nous améliorons les performances de l'agent en affinant GPT-4o par auto-apprentissage, en utilisant les traversées d'arbres générées par R-MCTS sans étiquettes fournies par l'humain. Sur le difficile benchmark VisualWebArena, notre agent R-MCTS basé sur GPT-4o atteint une amélioration relative de 6 % à 30 % sur diverses tâches par rapport à l'état de l'art précédent. De plus, nous montrons que les connaissances acquises lors de la recherche en temps réel peuvent être efficacement transférées à GPT-4o via l'affinage. Le GPT-4o affiné correspond à 97 % des performances de R-MCTS tout en réduisant l'utilisation de calcul par un facteur de quatre en temps de test. En outre, les résultats qualitatifs révèlent que le modèle GPT-4o affiné démontre la capacité à explorer l'environnement, évaluer un état et revenir à des états viables lorsqu'il détecte que l'état actuel ne peut pas mener au succès. De plus, notre travail démontre les propriétés d'échelle de calcul à la fois dans la collecte de données d'entraînement avec R-MCTS et en temps de test. Ces résultats suggèrent une direction de recherche prometteuse pour améliorer le raisonnement et les capacités de planification des VLM pour les applications agentic via la recherche en temps réel et l'auto-apprentissage.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.Summary
AI-Generated Summary