ChatPaper.aiChatPaper

Explorer : Mise à l'échelle de la synthèse de trajectoires web pilotée par l'exploration pour des agents web multimodaux

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

February 17, 2025
Auteurs: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI

Résumé

Les récents succès des modèles multimodaux de grande taille (LMM) ont suscité des applications prometteuses d'agents capables d'accomplir de manière autonome des tâches web complexes. Bien que les agents LMM open-source aient réalisé des avancées significatives dans les benchmarks d'évaluation hors ligne, leurs performances restent nettement inférieures aux capacités humaines dans des environnements en ligne plus réalistes. Un goulot d'étranglement majeur est le manque de jeux de données diversifiés et à grande échelle au niveau des trajectoires, couvrant divers domaines, qui sont coûteux à collecter. Dans cet article, nous relevons ce défi en développant une méthode évolutive pour synthétiser le plus grand et le plus diversifié jeu de données de trajectoires à ce jour, contenant plus de 94 000 trajectoires web multimodales réussies, couvrant 49 000 URL uniques, 720 000 captures d'écran et 33 millions d'éléments web. En particulier, nous exploitons une exploration web approfondie et un processus de raffinement pour obtenir des intentions de tâches variées. Le coût moyen est de 28 cents par trajectoire réussie, ce qui le rend abordable pour un large éventail d'utilisateurs dans la communauté. En nous appuyant sur ce jeu de données, nous entraînons Explorer, un agent web multimodal, et démontrons des performances solides sur les benchmarks d'agents web hors ligne et en ligne tels que Mind2Web-Live, Multimodal-Mind2Web et MiniWob++. De plus, nos expériences mettent en évidence la mise à l'échelle des données comme un facteur clé pour améliorer les capacités des agents web. Nous espérons que cette étude rendra la recherche de pointe sur les agents basés sur des LMM à plus grande échelle plus accessible.
English
Recent success in large multimodal models (LMMs) has sparked promising applications of agents capable of autonomously completing complex web tasks. While open-source LMM agents have made significant advances in offline evaluation benchmarks, their performance still falls substantially short of human-level capabilities in more realistic online settings. A key bottleneck is the lack of diverse and large-scale trajectory-level datasets across various domains, which are expensive to collect. In this paper, we address this challenge by developing a scalable recipe to synthesize the largest and most diverse trajectory-level dataset to date, containing over 94K successful multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and 33M web elements. In particular, we leverage extensive web exploration and refinement to obtain diverse task intents. The average cost is 28 cents per successful trajectory, making it affordable to a wide range of users in the community. Leveraging this dataset, we train Explorer, a multimodal web agent, and demonstrate strong performance on both offline and online web agent benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++. Additionally, our experiments highlight data scaling as a key driver for improving web agent capabilities. We hope this study makes state-of-the-art LMM-based agent research at a larger scale more accessible.

Summary

AI-Generated Summary

PDF102February 18, 2025