Explorer: Scalabilità della Sintesi di Traiettorie Web Guidate dall'Esplorazione per Agenti Web Multimodali
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
February 17, 2025
Autori: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI
Abstract
I recenti successi nei grandi modelli multimodali (LMM) hanno stimolato promettenti applicazioni di agenti in grado di completare autonomamente complessi compiti web. Sebbene gli agenti LMM open-source abbiano compiuto progressi significativi nei benchmark di valutazione offline, le loro prestazioni rimangono sostanzialmente inferiori rispetto alle capacità umane in contesti online più realistici. Un collo di bottiglia chiave è la mancanza di dataset diversificati e su larga scala a livello di traiettoria in vari domini, che sono costosi da raccogliere. In questo articolo, affrontiamo questa sfida sviluppando una ricetta scalabile per sintetizzare il dataset più grande e diversificato a livello di traiettoria fino ad oggi, contenente oltre 94K traiettorie web multimodali di successo, che coprono 49K URL unici, 720K screenshot e 33M elementi web. In particolare, sfruttiamo un'ampia esplorazione e raffinamento web per ottenere intenzioni di compito diversificate. Il costo medio è di 28 centesimi per traiettoria di successo, rendendolo accessibile a un'ampia gamma di utenti nella comunità. Utilizzando questo dataset, addestriamo Explorer, un agente web multimodale, e dimostriamo prestazioni solide sia nei benchmark offline che online per agenti web, come Mind2Web-Live, Multimodal-Mind2Web e MiniWob++. Inoltre, i nostri esperimenti evidenziano come la scalabilità dei dati sia un fattore chiave per migliorare le capacità degli agenti web. Speriamo che questo studio renda la ricerca sugli agenti basati su LMM all'avanguardia più accessibile su larga scala.
English
Recent success in large multimodal models (LMMs) has sparked promising
applications of agents capable of autonomously completing complex web tasks.
While open-source LMM agents have made significant advances in offline
evaluation benchmarks, their performance still falls substantially short of
human-level capabilities in more realistic online settings. A key bottleneck is
the lack of diverse and large-scale trajectory-level datasets across various
domains, which are expensive to collect. In this paper, we address this
challenge by developing a scalable recipe to synthesize the largest and most
diverse trajectory-level dataset to date, containing over 94K successful
multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and
33M web elements. In particular, we leverage extensive web exploration and
refinement to obtain diverse task intents. The average cost is 28 cents per
successful trajectory, making it affordable to a wide range of users in the
community. Leveraging this dataset, we train Explorer, a multimodal web agent,
and demonstrate strong performance on both offline and online web agent
benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++.
Additionally, our experiments highlight data scaling as a key driver for
improving web agent capabilities. We hope this study makes state-of-the-art
LMM-based agent research at a larger scale more accessible.Summary
AI-Generated Summary