ChatPaper.aiChatPaper

Explorer: Escalonando a Síntese de Trajetórias Web Orientadas à Exploração para Agentes Web Multimodais

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

February 17, 2025
Autores: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI

Resumo

Os recentes avanços em modelos multimodais de grande escala (LMMs) têm impulsionado aplicações promissoras de agentes capazes de realizar tarefas complexas na web de forma autônoma. Embora os agentes LMM de código aberto tenham alcançado progressos significativos em benchmarks de avaliação offline, seu desempenho ainda fica substancialmente aquém das capacidades humanas em cenários online mais realistas. Um gargalo crucial é a falta de conjuntos de dados diversos e em grande escala no nível de trajetórias em diversos domínios, que são caros para coletar. Neste artigo, abordamos esse desafio desenvolvendo uma receita escalável para sintetizar o maior e mais diversificado conjunto de dados de trajetórias até o momento, contendo mais de 94 mil trajetórias multimodais bem-sucedidas na web, abrangendo 49 mil URLs únicos, 720 mil capturas de tela e 33 milhões de elementos da web. Em particular, aproveitamos uma extensa exploração e refinamento da web para obter intenções de tarefas diversas. O custo médio é de 28 centavos por trajetória bem-sucedida, tornando-o acessível para uma ampla gama de usuários na comunidade. Utilizando esse conjunto de dados, treinamos o Explorer, um agente web multimodal, e demonstramos um desempenho robusto em benchmarks de agentes web tanto offline quanto online, como Mind2Web-Live, Multimodal-Mind2Web e MiniWob++. Além disso, nossos experimentos destacam o escalonamento de dados como um fator-chave para melhorar as capacidades dos agentes web. Esperamos que este estudo torne a pesquisa de agentes baseados em LMM de última geração em maior escala mais acessível.
English
Recent success in large multimodal models (LMMs) has sparked promising applications of agents capable of autonomously completing complex web tasks. While open-source LMM agents have made significant advances in offline evaluation benchmarks, their performance still falls substantially short of human-level capabilities in more realistic online settings. A key bottleneck is the lack of diverse and large-scale trajectory-level datasets across various domains, which are expensive to collect. In this paper, we address this challenge by developing a scalable recipe to synthesize the largest and most diverse trajectory-level dataset to date, containing over 94K successful multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and 33M web elements. In particular, we leverage extensive web exploration and refinement to obtain diverse task intents. The average cost is 28 cents per successful trajectory, making it affordable to a wide range of users in the community. Leveraging this dataset, we train Explorer, a multimodal web agent, and demonstrate strong performance on both offline and online web agent benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++. Additionally, our experiments highlight data scaling as a key driver for improving web agent capabilities. We hope this study makes state-of-the-art LMM-based agent research at a larger scale more accessible.

Summary

AI-Generated Summary

PDF102February 18, 2025