MolmoWeb: Agente Web Visual Abierto y Datos Abiertos para la Web Abierta

Resumen

Los agentes web—sistemas autónomos que navegan y ejecutan tareas en la web en nombre de los usuarios—tienen el potencial de transformar la forma en que las personas interactúan con el mundo digital. Sin embargo, los agentes web más capaces en la actualidad dependen de modelos propietarios con datos y recetas de entrenamiento no divulgados, lo que limita la comprensión científica, la reproducibilidad y el progreso impulsado por la comunidad. Creemos que los agentes para la web abierta deben construirse de manera abierta. Con este fin, presentamos (1) MolmoWebMix, una mezcla grande y diversa de demostraciones de tareas en el navegador y datos de percepción de interfaces gráficas web (GUI), y (2) MolmoWeb, una familia de agentes web multimodales completamente abiertos. Específicamente, MolmoWebMix combina más de 100.000 trayectorias de tareas sintéticas de múltiples pipelines de generación complementarios con más de 30.000 demostraciones humanas, trayectorias de habilidades web atómicas y datos de percepción de GUI, incluyendo la localización de expresiones referenciales y la respuesta a preguntas basadas en capturas de pantalla. Los agentes MolmoWeb operan como políticas de acción de lenguaje visual condicionadas por instrucciones: dada una instrucción de tarea y una captura de pantalla de una página web, predicen la siguiente acción del navegador, sin requerir acceso al HTML, árboles de accesibilidad o APIs especializadas. Disponibles en tamaños de 4B y 8B, en puntos de referencia de uso de navegadores como WebVoyager, Online-Mind2Web y DeepShop, los agentes MolmoWeb alcanzan resultados de vanguardia, superando a modelos solo de pesos abiertos de escala similar, como Fara-7B, UI-Tars-1.5-7B y Holo1-7B. MolmoWeb-8B también supera a los agentes de conjuntos de marcas (SoM) construidos sobre modelos frontera cerrados mucho más grandes, como GPT-4o. Además, demostramos ganancias consistentes mediante escalado en tiempo de prueba a través de despliegues paralelos con selección del mejor de N, logrando un 94.7% y un 60.5% en pass@4 (en comparación con 78.2% y 35.3% en pass@1) en WebVoyager y Online-Mind2Web, respectivamente. Liberaremos los puntos de control del modelo, los datos de entrenamiento, el código y un entorno de evaluación unificado para permitir la reproducibilidad y acelerar la investigación abierta sobre agentes web.

English

Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.

MolmoWeb: Agente Web Visual Abierto y Datos Abiertos para la Web Abierta

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

Resumen

Support