MolmoWeb: Agente Web Visual Aberto e Dados Abertos para a Web Aberta

Resumo

Agentes web – sistemas autônomos que navegam e executam tarefas na web em nome dos usuários – têm o potencial de transformar a forma como as pessoas interagem com o mundo digital. No entanto, os agentes web mais capazes atualmente dependem de modelos proprietários com dados e receitas de treinamento não divulgados, limitando a compreensão científica, a reprodutibilidade e o progresso impulsionado pela comunidade. Acreditamos que os agentes para a web aberta devem ser construídos abertamente. Para esse fim, introduzimos (1) MolmoWebMix, uma mistura grande e diversificada de demonstrações de tarefas em navegador e dados de percepção de GUI web, e (2) MolmoWeb, uma família de agentes web multimodais totalmente abertos. Especificamente, o MolmoWebMix combina mais de 100 mil trajetórias de tarefas sintéticas de múltiplos pipelines de geração complementares com mais de 30 mil demonstrações humanas, trajetórias de habilidades web atômicas e dados de percepção de GUI, incluindo a ancoragem de expressões referenciais e a resposta a perguntas baseadas em capturas de tela. Os agentes MolmoWeb operam como políticas de ação visuo-linguísticas condicionadas por instruções: dada uma instrução de tarefa e uma captura de tela de uma página web, eles preveem a próxima ação do navegador, sem exigir acesso a HTML, árvores de acessibilidade ou APIs especializadas. Disponíveis nos tamanhos 4B e 8B, em benchmarks de uso de navegador como WebVoyager, Online-Mind2Web e DeepShop, os agentes MolmoWeb alcançam resultados de última geração, superando modelos abertos apenas em pesos de escala similar, como Fara-7B, UI-Tars-1.5-7B e Holo1-7B. O MolmoWeb-8B também supera agentes baseados em marcas (SoM) construídos sobre modelos fechados de fronteira muito maiores, como o GPT-4o. Demonstramos ainda ganhos consistentes por meio de escalonamento no momento do teste via rollouts paralelos com seleção best-of-N, alcançando 94,7% e 60,5% de pass@4 (comparado a 78,2% e 35,3% de pass@1) no WebVoyager e no Online-Mind2Web, respectivamente. Liberaremos *checkpoints* do modelo, dados de treinamento, código e um *harness* de avaliação unificado para permitir a reprodutibilidade e acelerar a pesquisa aberta sobre agentes web.

English

Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.

MolmoWeb: Agente Web Visual Aberto e Dados Abertos para a Web Aberta

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

Resumo

Support