ChatPaper.aiChatPaper

MolmoWeb: Open Visuele Webagent en Open Data voor het Open Web

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

April 9, 2026
Auteurs: Tanmay Gupta, Piper Wolters, Zixian Ma, Peter Sushko, Rock Yuren Pang, Diego Llanes, Yue Yang, Taira Anderson, Boyuan Zheng, Zhongzheng Ren, Harsh Trivedi, Taylor Blanton, Caleb Ouellette, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI

Samenvatting

Webagents – autonome systemen die namens gebruikers op het web navigeren en taken uitvoeren – hebben het potentieel om te veranderen hoe mensen met de digitale wereld omgaan. De krachtigste webagentschappen van vandaag zijn echter gebaseerd op propriëtaire modellen met onbekende trainingsdata en -methoden, wat wetenschappelijk begrip, reproduceerbaarheid en gemeenschapsgedreven vooruitgang beperkt. Wij geloven dat agents voor het open web ook open ontwikkeld moeten worden. Daarom introduceren we (1) MolmoWebMix, een grote en diverse mix van browsertaakdemonstraties en web-GUI-perceptiedata, en (2) MolmoWeb, een familie van volledig open multimodale webagentschappen. Concreet combineert MolmoWebMix meer dan 100K synthetische taaktrajecten uit meerdere complementaire generatiepijplijnen met 30K+ menselijke demonstraties, trajecten van atomaire webvaardigheden, en GUI-perceptiedata, waaronder *referring expression grounding* en *screenshot question answering*. MolmoWeb-agents functioneren als instructie-gestuurde visueel-talige actiebeleidsmodellen: gegeven een taakinstructie en een webpagina-screenshot voorspellen zij de volgende browseractie, zonder toegang tot HTML, *accessibility trees* of gespecialiseerde API's. Beschikbaar in 4B en 8B formaat, behalen MolmoWeb-agents state-of-the-art resultaten op browsergebruiksbenchmarks zoals WebVoyager, Online-Mind2Web en DeepShop, waarbij ze vergelijkbare open *weight-only* modellen zoals Fara-7B, UI-Tars-1.5-7B en Holo1-7B overtreffen. MolmoWeb-8B overtreft zelfs *set-of-marks* (SoM)-agents die zijn gebouwd op veel grotere gesloten *frontier*-modellen zoals GPT-4o. We tonen verder consistente verbeteringen aan door *test-time scaling* via parallelle *rollouts* met *best-of-N* selectie, waarbij respectievelijk 94,7% en 60,5% pass@4 wordt bereikt (vergeleken met 78,2% en 35,3% pass@1) op WebVoyager en Online-Mind2Web. We zullen modelcheckpoints, trainingsdata, code en een uniform evaluatiekader vrijgeven om reproduceerbaarheid mogelijk te maken en open onderzoek naar webagents te versnellen.
English
Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.
PDF351April 13, 2026