MolmoWeb : Agent Web Visuel Ouvert et Données Ouvertes pour le Web Ouvert

Résumé

Les agents web – des systèmes autonomes qui naviguent et exécutent des tâches sur le web pour le compte des utilisateurs – ont le potentiel de transformer l'interaction des personnes avec le monde numérique. Cependant, les agents web les plus performants actuels reposent sur des modèles propriétaires dont les données et les méthodes d'entraînement ne sont pas divulguées, ce qui limite la compréhension scientifique, la reproductibilité et les progrès pilotés par la communauté. Nous pensons que les agents destinés au web ouvert devraient être construits ouvertement. Dans cette optique, nous présentons (1) MolmoWebMix, un mélange vaste et diversifié de démonstrations de tâches navigateur et de données de perception d'interface web (GUI), et (2) MolmoWeb, une famille d'agents web multimodaux entièrement ouverts. Concrètement, MolmoWebMix combine plus de 100 000 trajectoires de tâches synthétiques issues de multiples pipelines de génération complémentaires avec plus de 30 000 démonstrations humaines, des trajectoires de compétences web atomiques et des données de perception GUI, incluant l'ancrage d'expressions référentielles et des questions-réponses sur captures d'écran. Les agents MolmoWeb fonctionnent comme des politiques d'action visuo-linguistiques conditionnées par des instructions : étant donné une consigne de tâche et une capture d'écran d'une page web, ils prédisent la prochaine action navigateur, sans nécessiter d'accès au HTML, aux arbres d'accessibilité ou à des API spécialisées. Disponibles en versions 4B et 8B, sur des benchmarks d'utilisation navigateur comme WebVoyager, Online-Mind2Web et DeepShop, les agents MolmoWeb obtiennent des résultats à l'état de l'art, surpassant des modèles ouverts similaires uniquement par leurs poids, tels que Fara-7B, UI-Tars-1.5-7B et Holo1-7B. MolmoWeb-8B surpasse également les agents basés sur les "set-of-marks" (SoM) construits sur des modèles fermés frontière beaucoup plus larges comme GPT-4o. Nous démontrons en outre des gains constants via un scaling au moment du test via des déploiements parallèles avec une sélection best-of-N, atteignant 94,7 % et 60,5 % de pass@4 (contre 78,2 % et 35,3 % de pass@1) sur WebVoyager et Online-Mind2Web respectivement. Nous publierons les points de contrôle des modèles, les données d'entraînement, le code et un cadre d'évaluation unifié pour permettre la reproductibilité et accélérer la recherche ouverte sur les agents web.

English

Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.

MolmoWeb : Agent Web Visuel Ouvert et Données Ouvertes pour le Web Ouvert

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

Résumé

Support