Molmo2: Open Weights en Data voor Vision-Language Modellen met Videobegrip en Grounding
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
January 15, 2026
Auteurs: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI
Samenvatting
De krachtigste video-taalmodellen (VLM's) van vandaag blijven propriëtair. De sterkste open-weight modellen zijn ofwel afhankelijk van synthetische data van propriëtaire VLM's (in feite een distillatie daarvan) of maken hun trainingsdata of -recept niet openbaar. Hierdoor ontbreekt het de open-sourcegemeenschap aan de fundamenten om verder te bouwen op de state-of-the-art video- (en beeld-)taalmodellen. Cruciaal is dat veel downstream-toepassingen meer vereisen dan alleen hoogwaardig videobegrip; ze vereisen grounding – hetzij door aanwijzing (pointing) hetzij door tracking in pixels. Zelfs propriëtaire modellen missen deze capaciteit. Wij presenteren Molmo2, een nieuwe familie VLM's die state-of-the-art zijn onder open-sourcemodellen en uitzonderlijke nieuwe capaciteiten demonstreren in point-driven grounding voor taken met enkele afbeeldingen, meerdere afbeeldingen en video. Onze belangrijkste bijdrage is een collectie van 7 nieuwe videodatasets en 2 multi-image datasets, waaronder een dataset met zeer gedetailleerde videobijschriften voor pre-training, een dataset met vrij-vorm video-vraag-en-antwoord voor fine-tuning, een nieuwe objecttracking-dataset met complexe queries, en een innovatieve nieuwe video-pointing dataset, allemaal verzameld zonder gebruik van gesloten VLM's. Wij presenteren ook een trainingsrecept voor deze data dat gebruikmaakt van een efficiënt packing- en message-tree-encodingsschema, en tonen aan dat bidirectionele aandacht op vision-tokens en een nieuwe token-weight-strategie de prestaties verbeteren. Ons beste 8B-model presteert beter dan anderen in de klasse van open-weight- en data-modellen op korte video's, tellen en bijschrijven, en is competitief op lange video's. Op het gebied van video-grounding presteert Molmo2 significant beter dan bestaande open-weight-modellen zoals Qwen3-VL (35.5 vs 29.6 nauwkeurigheid bij videotellen) en overtreft propriëtaire modellen zoals Gemini 3 Pro bij sommige taken (38.4 vs 20.0 F1 bij video-pointing en 56.2 vs 41.1 J&F bij video-tracking).
English
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).