ChatPaper.aiChatPaper

Amélioration des Agents IA Autonomes avec la Recherche Arborescente Réflexive et l'Auto-apprentissage

Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

October 2, 2024
Auteurs: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI

Résumé

Les agents autonomes ont démontré un potentiel significatif dans l'automatisation des tâches complexes de prise de décision multi-étapes. Cependant, même les modèles vision-langage de pointe (VLM), tels que GPT-4o, restent en deçà des performances humaines, notamment dans des environnements web complexes et des tâches de planification à long terme. Pour remédier à ces limitations, nous introduisons la Recherche d'Arbre de Monte Carlo Réflexive (R-MCTS), un algorithme novateur conçu pour améliorer la capacité des agents IA, par exemple alimentés par GPT-4o, à explorer l'espace de décision en temps réel. R-MCTS étend le MCTS traditionnel en 1) incorporant une réflexion contrastive, permettant aux agents d'apprendre des interactions passées et d'améliorer dynamiquement leur efficacité de recherche ; et 2) en utilisant un débat multi-agent pour fournir une évaluation d'état fiable. De plus, nous améliorons les performances de l'agent en affinant GPT-4o par auto-apprentissage, en utilisant les traversées d'arbres générées par R-MCTS sans étiquettes fournies par l'humain. Sur le difficile benchmark VisualWebArena, notre agent R-MCTS basé sur GPT-4o atteint une amélioration relative de 6 % à 30 % sur diverses tâches par rapport à l'état de l'art précédent. De plus, nous montrons que les connaissances acquises lors de la recherche en temps réel peuvent être efficacement transférées à GPT-4o via l'affinage. Le GPT-4o affiné correspond à 97 % des performances de R-MCTS tout en réduisant l'utilisation de calcul par un facteur de quatre en temps de test. En outre, les résultats qualitatifs révèlent que le modèle GPT-4o affiné démontre la capacité à explorer l'environnement, évaluer un état et revenir à des états viables lorsqu'il détecte que l'état actuel ne peut pas mener au succès. De plus, notre travail démontre les propriétés d'échelle de calcul à la fois dans la collecte de données d'entraînement avec R-MCTS et en temps de test. Ces résultats suggèrent une direction de recherche prometteuse pour améliorer le raisonnement et les capacités de planification des VLM pour les applications agentic via la recherche en temps réel et l'auto-apprentissage.
English
Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we introduce Reflective Monte Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Moreover, we improve the agent's performance by fine-tuning GPT-4o through self-learning, using R-MCTS generated tree traversals without any human-provided labels. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the knowledge gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o matches 97% of R-MCTS's performance while reducing compute usage by a factor of four at test time. Furthermore, qualitative results reveal that the fine-tuned GPT-4o model demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success. Moreover, our work demonstrates the compute scaling properties in both training - data collection with R-MCTS - and testing time. These results suggest a promising research direction to enhance VLMs' reasoning and planning capabilities for agentic applications via test-time search and self-learning.

Summary

AI-Generated Summary

PDF92November 16, 2024