MolmoWeb: Agente Web Visivo Aperto e Dati Aperti per il Web Aperto

Abstract

Gli agenti web – sistemi autonomi che navigano ed eseguono compiti sul web per conto degli utenti – hanno il potenziale per trasformare il modo in cui le persone interagiscono con il mondo digitale. Tuttavia, gli agenti web più capaci oggi si basano su modelli proprietari con dati e metodologie di addestramento non divulgati, limitando la comprensione scientifica, la riproducibilità e il progresso guidato dalla comunità. Crediamo che gli agenti per il web aperto debbano essere costruiti in modo aperto. A tal fine, introduciamo (1) MolmoWebMix, un'ampia e diversificata miscela di dimostrazioni di attività browser e dati di percezione web-GUI, e (2) MolmoWeb, una famiglia di agenti web multimodali completamente aperti. Nello specifico, MolmoWebMix combina oltre 100.000 traiettorie di compiti sintetiche provenienti da molteplici pipeline di generazione complementari con oltre 30.000 dimostrazioni umane, traiettorie di abilità web atomiche e dati di percezione GUI, inclusi il grounding di espressioni referenziali e il question answering su screenshot. Gli agenti MolmoWeb operano come politiche di azione visivo-linguistiche condizionate da istruzioni: data un'istruzione di compito e uno screenshot di una pagina web, predicono la prossima azione browser, senza richiedere accesso all'HTML, agli alberi di accessibilità o ad API specializzate. Disponibili nelle dimensioni 4B e 8B, su benchmark di utilizzo browser come WebVoyager, Online-Mind2Web e DeepShop, gli agenti MolmoWeb raggiungono risultati allo stato dell'arte, superando modelli open-weight-only di scala simile come Fara-7B, UI-Tars-1.5-7B e Holo1-7B. MolmoWeb-8B supera anche gli agenti set-of-marks (SoM) costruiti su modelli frontier chiusi molto più grandi come GPT-4o. Dimostriamo ulteriori guadagni consistenti attraverso lo scaling a tempo di test tramite rollout paralleli con selezione best-of-N, raggiungendo il 94,7% e il 60,5% di pass@4 (rispetto al 78,2% e 35,3% di pass@1) rispettivamente su WebVoyager e Online-Mind2Web. Rilasceremo checkpoint del modello, dati di addestramento, codice e un sistema di valutazione unificato per consentire la riproducibilità e accelerare la ricerca aperta sugli agenti web.

English

Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.

MolmoWeb: Agente Web Visivo Aperto e Dati Aperti per il Web Aperto

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

Abstract

Support