Explorer: Escalando la síntesis de trayectorias web impulsada por exploración para agentes web multimodales
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
February 17, 2025
Autores: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI
Resumen
Los recientes avances en los modelos multimodales de gran escala (LMMs) han impulsado aplicaciones prometedoras de agentes capaces de completar de manera autónoma tareas complejas en la web. Si bien los agentes LMM de código abierto han logrado avances significativos en los puntos de referencia de evaluación fuera de línea, su rendimiento aún está considerablemente por debajo de las capacidades humanas en entornos en línea más realistas. Un cuello de botella clave es la falta de conjuntos de datos diversos y a gran escala a nivel de trayectorias en diversos dominios, los cuales son costosos de recopilar. En este artículo, abordamos este desafío desarrollando una receta escalable para sintetizar el conjunto de datos a nivel de trayectorias más grande y diverso hasta la fecha, que contiene más de 94K trayectorias web multimodales exitosas, abarcando 49K URLs únicas, 720K capturas de pantalla y 33M elementos web. En particular, aprovechamos una exploración y refinamiento extensivo de la web para obtener intenciones de tareas diversas. El costo promedio es de 28 centavos por trayectoria exitosa, lo que lo hace asequible para una amplia gama de usuarios en la comunidad. Utilizando este conjunto de datos, entrenamos Explorer, un agente web multimodal, y demostramos un rendimiento sólido en puntos de referencia tanto fuera de línea como en línea para agentes web, como Mind2Web-Live, Multimodal-Mind2Web y MiniWob++. Además, nuestros experimentos destacan la escalabilidad de datos como un factor clave para mejorar las capacidades de los agentes web. Esperamos que este estudio haga que la investigación de vanguardia basada en LMMs a mayor escala sea más accesible.
English
Recent success in large multimodal models (LMMs) has sparked promising
applications of agents capable of autonomously completing complex web tasks.
While open-source LMM agents have made significant advances in offline
evaluation benchmarks, their performance still falls substantially short of
human-level capabilities in more realistic online settings. A key bottleneck is
the lack of diverse and large-scale trajectory-level datasets across various
domains, which are expensive to collect. In this paper, we address this
challenge by developing a scalable recipe to synthesize the largest and most
diverse trajectory-level dataset to date, containing over 94K successful
multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and
33M web elements. In particular, we leverage extensive web exploration and
refinement to obtain diverse task intents. The average cost is 28 cents per
successful trajectory, making it affordable to a wide range of users in the
community. Leveraging this dataset, we train Explorer, a multimodal web agent,
and demonstrate strong performance on both offline and online web agent
benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++.
Additionally, our experiments highlight data scaling as a key driver for
improving web agent capabilities. We hope this study makes state-of-the-art
LMM-based agent research at a larger scale more accessible.Summary
AI-Generated Summary