Explorer: Schaalvergroting van exploratiegedreven web trajectoriënthesis voor multimodale webagenten

Samenvatting

Recente successen in grote multimodale modellen (LMMs) hebben veelbelovende toepassingen mogelijk gemaakt van agents die complexe webtaken autonoom kunnen uitvoeren. Hoewel open-source LMM-agents aanzienlijke vooruitgang hebben geboekt in offline evaluatiebenchmarks, blijft hun prestatieniveau aanzienlijk achter bij menselijke capaciteiten in meer realistische online omgevingen. Een belangrijk knelpunt is het gebrek aan diverse en grootschalige trajectniveau-datasets over verschillende domeinen, die kostbaar zijn om te verzamelen. In dit artikel pakken we deze uitdaging aan door een schaalbare methode te ontwikkelen om de grootste en meest diverse trajectniveau-dataset tot nu toe te synthetiseren, met meer dan 94K succesvolle multimodale webtrajecten, verspreid over 49K unieke URL's, 720K schermafbeeldingen en 33M webelementen. In het bijzonder maken we gebruik van uitgebreide webverkenning en -verfijning om diverse taakintenties te verkrijgen. De gemiddelde kosten bedragen 28 cent per succesvol traject, wat het betaalbaar maakt voor een breed scala aan gebruikers in de gemeenschap. Met behulp van deze dataset trainen we Explorer, een multimodale webagent, en demonstreren we sterke prestaties op zowel offline als online webagent-benchmarks zoals Mind2Web-Live, Multimodal-Mind2Web en MiniWob++. Daarnaast benadrukken onze experimenten dat dataschaling een cruciale drijfveer is voor het verbeteren van de capaciteiten van webagents. We hopen dat deze studie onderzoek naar state-of-the-art LMM-gebaseerde agents op grotere schaal toegankelijker maakt.

English

Recent success in large multimodal models (LMMs) has sparked promising applications of agents capable of autonomously completing complex web tasks. While open-source LMM agents have made significant advances in offline evaluation benchmarks, their performance still falls substantially short of human-level capabilities in more realistic online settings. A key bottleneck is the lack of diverse and large-scale trajectory-level datasets across various domains, which are expensive to collect. In this paper, we address this challenge by developing a scalable recipe to synthesize the largest and most diverse trajectory-level dataset to date, containing over 94K successful multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and 33M web elements. In particular, we leverage extensive web exploration and refinement to obtain diverse task intents. The average cost is 28 cents per successful trajectory, making it affordable to a wide range of users in the community. Leveraging this dataset, we train Explorer, a multimodal web agent, and demonstrate strong performance on both offline and online web agent benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++. Additionally, our experiments highlight data scaling as a key driver for improving web agent capabilities. We hope this study makes state-of-the-art LMM-based agent research at a larger scale more accessible.

Explorer: Schaalvergroting van exploratiegedreven web trajectoriënthesis voor multimodale webagenten

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Samenvatting

Support