ChatPaper.aiChatPaper

Molmo2: Offene Gewichte und Daten für Vision-Sprach-Modelle mit Videoverständnis und Grounding

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

January 15, 2026
papers.authors: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI

papers.abstract

Die leistungsstärksten Video-Sprachmodelle (VLMs) sind auch heute noch proprietär. Die besten Open-Weight-Modelle verlassen sich entweder auf synthetische Daten von proprietären VLMs, was effektiv einer Destillation von diesen gleichkommt, oder sie legen ihre Trainingsdaten und -methoden nicht offen. Infolgedessen fehlt der Open-Source-Community die Grundlage, um den State-of-the-Art bei Video- (und Bild-) Sprachmodellen weiterzuentwickeln. Entscheidend ist, dass viele nachgelagerte Anwendungen mehr erfordern als nur ein hochleveliges Videoverständnis; sie benötigen Grounding – entweder durch Zeigen (Pointing) oder Verfolgen (Tracking) auf Pixelebene. Selbst proprietäre Modelle verfügen nicht über diese Fähigkeit. Wir stellen Molmo2 vor, eine neue Familie von VLMs, die im Open-Source-Bereich state-of-the-art sind und außergewöhnliche neue Fähigkeiten im punktgesteuerten Grounding bei Einzelbild-, Mehrbild- und Videoaufgaben demonstrieren. Unser Hauptbeitrag ist eine Sammlung von 7 neuen Video-Datensätzen und 2 Mehrbild-Datensätzen, darunter ein Datensatz mit hochdetaillierten Videobeschriftungen für Pre-Training, ein freiformatiertes Video-Frage-Antwort-Datensatz für Fine-Tuning, ein neuer Objekt-Tracking-Datensatz mit komplexen Abfragen und ein innovativer neuer Video-Pointing-Datensatz, die alle ohne die Verwendung geschlossener VLMs erhoben wurden. Wir stellen auch ein Trainingsrezept für diese Daten vor, das ein effizientes Packing- und Message-Tree-Encoding-Schema nutzt, und zeigen, dass bidirektionale Aufmerksamkeit auf Vision-Tokens und eine neuartige Token-Gewichtungsstrategie die Leistung verbessern. Unser bestes 8B-Modell übertrifft andere Modelle der Klasse der Open-Weight- und Open-Data-Modelle bei kurzen Videos, Zählaufgaben und Beschriftungen und ist bei langen Videos wettbewerbsfähig. Beim Video-Grounding übertrifft Molmo2 existierende Open-Weight-Modelle wie Qwen3-VL deutlich (35,5 vs. 29,6 Genauigkeit beim Video-Counting) und übertrifft proprietäre Modelle wie Gemini 3 Pro bei einigen Aufgaben (38,4 vs. 20,0 F1 beim Video-Pointing und 56,2 vs. 41,1 J&F beim Video-Tracking).
English
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).
PDF150January 17, 2026