Explorer: Schaalvergroting van exploratiegedreven web trajectoriënthesis voor multimodale webagenten
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
February 17, 2025
Auteurs: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI
Samenvatting
Recente successen in grote multimodale modellen (LMMs) hebben veelbelovende toepassingen mogelijk gemaakt van agents die complexe webtaken autonoom kunnen uitvoeren. Hoewel open-source LMM-agents aanzienlijke vooruitgang hebben geboekt in offline evaluatiebenchmarks, blijft hun prestatieniveau aanzienlijk achter bij menselijke capaciteiten in meer realistische online omgevingen. Een belangrijk knelpunt is het gebrek aan diverse en grootschalige trajectniveau-datasets over verschillende domeinen, die kostbaar zijn om te verzamelen. In dit artikel pakken we deze uitdaging aan door een schaalbare methode te ontwikkelen om de grootste en meest diverse trajectniveau-dataset tot nu toe te synthetiseren, met meer dan 94K succesvolle multimodale webtrajecten, verspreid over 49K unieke URL's, 720K schermafbeeldingen en 33M webelementen. In het bijzonder maken we gebruik van uitgebreide webverkenning en -verfijning om diverse taakintenties te verkrijgen. De gemiddelde kosten bedragen 28 cent per succesvol traject, wat het betaalbaar maakt voor een breed scala aan gebruikers in de gemeenschap. Met behulp van deze dataset trainen we Explorer, een multimodale webagent, en demonstreren we sterke prestaties op zowel offline als online webagent-benchmarks zoals Mind2Web-Live, Multimodal-Mind2Web en MiniWob++. Daarnaast benadrukken onze experimenten dat dataschaling een cruciale drijfveer is voor het verbeteren van de capaciteiten van webagents. We hopen dat deze studie onderzoek naar state-of-the-art LMM-gebaseerde agents op grotere schaal toegankelijker maakt.
English
Recent success in large multimodal models (LMMs) has sparked promising
applications of agents capable of autonomously completing complex web tasks.
While open-source LMM agents have made significant advances in offline
evaluation benchmarks, their performance still falls substantially short of
human-level capabilities in more realistic online settings. A key bottleneck is
the lack of diverse and large-scale trajectory-level datasets across various
domains, which are expensive to collect. In this paper, we address this
challenge by developing a scalable recipe to synthesize the largest and most
diverse trajectory-level dataset to date, containing over 94K successful
multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and
33M web elements. In particular, we leverage extensive web exploration and
refinement to obtain diverse task intents. The average cost is 28 cents per
successful trajectory, making it affordable to a wide range of users in the
community. Leveraging this dataset, we train Explorer, a multimodal web agent,
and demonstrate strong performance on both offline and online web agent
benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++.
Additionally, our experiments highlight data scaling as a key driver for
improving web agent capabilities. We hope this study makes state-of-the-art
LMM-based agent research at a larger scale more accessible.Summary
AI-Generated Summary