Molmo2: Open Weights en Data voor Vision-Language Modellen met Videobegrip en Grounding

Samenvatting

De krachtigste video-taalmodellen (VLM's) van vandaag blijven propriëtair. De sterkste open-weight modellen zijn ofwel afhankelijk van synthetische data van propriëtaire VLM's (in feite een distillatie daarvan) of maken hun trainingsdata of -recept niet openbaar. Hierdoor ontbreekt het de open-sourcegemeenschap aan de fundamenten om verder te bouwen op de state-of-the-art video- (en beeld-)taalmodellen. Cruciaal is dat veel downstream-toepassingen meer vereisen dan alleen hoogwaardig videobegrip; ze vereisen grounding – hetzij door aanwijzing (pointing) hetzij door tracking in pixels. Zelfs propriëtaire modellen missen deze capaciteit. Wij presenteren Molmo2, een nieuwe familie VLM's die state-of-the-art zijn onder open-sourcemodellen en uitzonderlijke nieuwe capaciteiten demonstreren in point-driven grounding voor taken met enkele afbeeldingen, meerdere afbeeldingen en video. Onze belangrijkste bijdrage is een collectie van 7 nieuwe videodatasets en 2 multi-image datasets, waaronder een dataset met zeer gedetailleerde videobijschriften voor pre-training, een dataset met vrij-vorm video-vraag-en-antwoord voor fine-tuning, een nieuwe objecttracking-dataset met complexe queries, en een innovatieve nieuwe video-pointing dataset, allemaal verzameld zonder gebruik van gesloten VLM's. Wij presenteren ook een trainingsrecept voor deze data dat gebruikmaakt van een efficiënt packing- en message-tree-encodingsschema, en tonen aan dat bidirectionele aandacht op vision-tokens en een nieuwe token-weight-strategie de prestaties verbeteren. Ons beste 8B-model presteert beter dan anderen in de klasse van open-weight- en data-modellen op korte video's, tellen en bijschrijven, en is competitief op lange video's. Op het gebied van video-grounding presteert Molmo2 significant beter dan bestaande open-weight-modellen zoals Qwen3-VL (35.5 vs 29.6 nauwkeurigheid bij videotellen) en overtreft propriëtaire modellen zoals Gemini 3 Pro bij sommige taken (38.4 vs 20.0 F1 bij video-pointing en 56.2 vs 41.1 J&F bij video-tracking).

English

Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).

Molmo2: Open Weights en Data voor Vision-Language Modellen met Videobegrip en Grounding

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Samenvatting

Support