ChatPaper.aiChatPaper

Explorer: Skalierbare, explorationsgetriebene Web-Trajektorien-Synthese für multimodale Web-Agenten

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

February 17, 2025
Autoren: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI

Zusammenfassung

Jüngste Erfolge bei großen multimodalen Modellen (LMMs) haben vielversprechende Anwendungen von Agenten ermöglicht, die in der Lage sind, komplexe Webaufgaben autonom zu erledigen. Obwohl Open-Source-LMM-Agenten in Offline-Evaluierungsbenchmarks bedeutende Fortschritte erzielt haben, bleibt ihre Leistung in realistischeren Online-Szenarien deutlich hinter den menschlichen Fähigkeiten zurück. Ein zentraler Engpass ist das Fehlen von diversen und groß angelegten Trajektorien-Datensätzen über verschiedene Domänen hinweg, deren Erstellung kostspielig ist. In dieser Arbeit gehen wir diese Herausforderung an, indem wir ein skalierbares Rezept entwickeln, um den bisher größten und vielfältigsten Trajektorien-Datensatz zu synthetisieren, der über 94.000 erfolgreiche multimodale Web-Trajektorien, 49.000 einzigartige URLs, 720.000 Screenshots und 33 Millionen Web-Elemente umfasst. Insbesondere nutzen wir umfangreiche Web-Exploration und -Verfeinerung, um diverse Aufgabenintentionen zu erhalten. Die durchschnittlichen Kosten betragen 28 Cent pro erfolgreicher Trajektorie, was sie für eine breite Nutzergemeinschaft erschwinglich macht. Mithilfe dieses Datensatzes trainieren wir Explorer, einen multimodalen Web-Agenten, und demonstrieren starke Leistungen in sowohl Offline- als auch Online-Web-Agenten-Benchmarks wie Mind2Web-Live, Multimodal-Mind2Web und MiniWob++. Darüber hinaus zeigen unsere Experimente, dass die Skalierung von Daten ein entscheidender Treiber für die Verbesserung der Fähigkeiten von Web-Agenten ist. Wir hoffen, dass diese Studie die Forschung zu state-of-the-art LMM-basierten Agenten in größerem Maßstab zugänglicher macht.
English
Recent success in large multimodal models (LMMs) has sparked promising applications of agents capable of autonomously completing complex web tasks. While open-source LMM agents have made significant advances in offline evaluation benchmarks, their performance still falls substantially short of human-level capabilities in more realistic online settings. A key bottleneck is the lack of diverse and large-scale trajectory-level datasets across various domains, which are expensive to collect. In this paper, we address this challenge by developing a scalable recipe to synthesize the largest and most diverse trajectory-level dataset to date, containing over 94K successful multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and 33M web elements. In particular, we leverage extensive web exploration and refinement to obtain diverse task intents. The average cost is 28 cents per successful trajectory, making it affordable to a wide range of users in the community. Leveraging this dataset, we train Explorer, a multimodal web agent, and demonstrate strong performance on both offline and online web agent benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++. Additionally, our experiments highlight data scaling as a key driver for improving web agent capabilities. We hope this study makes state-of-the-art LMM-based agent research at a larger scale more accessible.

Summary

AI-Generated Summary

PDF102February 18, 2025