Explorer: Escalando la síntesis de trayectorias web impulsada por exploración para agentes web multimodales

Resumen

Los recientes avances en los modelos multimodales de gran escala (LMMs) han impulsado aplicaciones prometedoras de agentes capaces de completar de manera autónoma tareas complejas en la web. Si bien los agentes LMM de código abierto han logrado avances significativos en los puntos de referencia de evaluación fuera de línea, su rendimiento aún está considerablemente por debajo de las capacidades humanas en entornos en línea más realistas. Un cuello de botella clave es la falta de conjuntos de datos diversos y a gran escala a nivel de trayectorias en diversos dominios, los cuales son costosos de recopilar. En este artículo, abordamos este desafío desarrollando una receta escalable para sintetizar el conjunto de datos a nivel de trayectorias más grande y diverso hasta la fecha, que contiene más de 94K trayectorias web multimodales exitosas, abarcando 49K URLs únicas, 720K capturas de pantalla y 33M elementos web. En particular, aprovechamos una exploración y refinamiento extensivo de la web para obtener intenciones de tareas diversas. El costo promedio es de 28 centavos por trayectoria exitosa, lo que lo hace asequible para una amplia gama de usuarios en la comunidad. Utilizando este conjunto de datos, entrenamos Explorer, un agente web multimodal, y demostramos un rendimiento sólido en puntos de referencia tanto fuera de línea como en línea para agentes web, como Mind2Web-Live, Multimodal-Mind2Web y MiniWob++. Además, nuestros experimentos destacan la escalabilidad de datos como un factor clave para mejorar las capacidades de los agentes web. Esperamos que este estudio haga que la investigación de vanguardia basada en LMMs a mayor escala sea más accesible.

English

Recent success in large multimodal models (LMMs) has sparked promising applications of agents capable of autonomously completing complex web tasks. While open-source LMM agents have made significant advances in offline evaluation benchmarks, their performance still falls substantially short of human-level capabilities in more realistic online settings. A key bottleneck is the lack of diverse and large-scale trajectory-level datasets across various domains, which are expensive to collect. In this paper, we address this challenge by developing a scalable recipe to synthesize the largest and most diverse trajectory-level dataset to date, containing over 94K successful multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and 33M web elements. In particular, we leverage extensive web exploration and refinement to obtain diverse task intents. The average cost is 28 cents per successful trajectory, making it affordable to a wide range of users in the community. Leveraging this dataset, we train Explorer, a multimodal web agent, and demonstrate strong performance on both offline and online web agent benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++. Additionally, our experiments highlight data scaling as a key driver for improving web agent capabilities. We hope this study makes state-of-the-art LMM-based agent research at a larger scale more accessible.

Explorer: Escalando la síntesis de trayectorias web impulsada por exploración para agentes web multimodales

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Resumen

Support