MolmoWeb: Открытый визуальный веб-агент и открытые данные для открытого веба

Аннотация

Веб-агенты — автономные системы, которые навигацию и выполняют задачи в интернете от имени пользователей — обладают потенциалом изменить способы взаимодействия людей с цифровым миром. Однако современные наиболее продвинутые веб-агенты основываются на проприетарных моделях с закрытыми данными обучения и методиками, что ограничивает научное понимание, воспроизводимость и прогресс, движимый сообществом. Мы убеждены, что агенты для открытой веб-среды должны создаваться открыто. С этой целью мы представляем: (1) MolmoWebMix — крупную и разнообразную смесь демонстраций задач в браузере и данных веб-визуального восприятия (GUI), и (2) MolmoWeb — семейство полностью открытых мультимодальных веб-агентов. В частности, MolmoWebMix объединяет более 100 тыс. синтетических траекторий задач, полученных по нескольким взаимодополняющим конвейерам генерации, с 30+ тыс. человеческих демонстраций, атомарными траекториями веб-навыков и данными визуального восприятия интерфейсов, включая локализацию по референциальным выражениям и ответы на вопросы по скриншотам. Агенты MolmoWeb функционируют как инструкционно-обусловленные визуально-языковые политики действий: получая текстовую инструкцию задачи и скриншот веб-страницы, они предсказывают следующее действие в браузере, не требуя доступа к HTML, деревьям доступности или специализированным API. Доступные в размерах 4B и 8B параметров, на бенчмарках использования браузера, таких как WebVoyager, Online-Mind2Web и DeepShop, агенты MolmoWeb достигают наилучших результатов, превосходя модели аналогичного масштаба с открытыми весами, такие как Fara-7B, UI-Tars-1.5-7B и Holo1-7B. MolmoWeb-8B также превосходит агентов, построенных на основе значительно более крупных закрытых фронтир-моделей, таких как GPT-4o, по метрике set-of-marks (SoM). Мы также демонстрируем стабильное улучшение результатов за счет масштабирования на этапе тестирования с помощью параллельных прогонов и best-of-N селекции, достигая 94.7% и 60.5% pass@4 (по сравнению с 78.2% и 35.3% pass@1) на WebVoyager и Online-Mind2Web соответственно. Мы выпустим чекпоинты моделей, данные для обучения, код и унифицированный фреймворк для оценки, чтобы обеспечить воспроизводимость и ускорить открытые исследования в области веб-агентов.

English

Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.

MolmoWeb: Открытый визуальный веб-агент и открытые данные для открытого веба

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

Аннотация

Support