ChatPaper.aiChatPaper

Molmo2 : Modèles et données en libre accès pour les modèles vision-langage avec compréhension et ancrage vidéo

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

January 15, 2026
papers.authors: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI

papers.abstract

Les modèles vidéo-langage (VLM) les plus performants actuels restent propriétaires. Les modèles open-source les plus avancés s'appuient soit sur des données synthétiques issues de VLM propriétaires, effectuant ainsi un *distillation* de ces derniers, soit ne divulguent pas leurs données ou méthode d'entraînement. En conséquence, la communauté open source manque des bases nécessaires pour progresser par rapport à l'état de l'art en matière de modèles langage (pour la vidéo et l'image). Point crucial, de nombreuses applications en aval nécessitent plus qu'une simple compréhension générale de la vidéo ; elles exigent un ancrage (*grounding*) – soit par désignation (*pointing*), soit par suivi (*tracking*) au niveau des pixels. Même les modèles propriétaires ne possèdent pas cette capacité. Nous présentons Molmo2, une nouvelle famille de VLM qui sont à l'état de l'art parmi les modèles open source et démontrent des capacités exceptionnellement nouvelles en matière d'ancrage par désignation pour des tâches sur image unique, multi-images et vidéo. Notre contribution principale est un ensemble de 7 nouveaux jeux de données vidéo et 2 jeux de données multi-images, incluant un jeu de données de descriptions vidéo très détaillées pour le pré-entraînement, un jeu de données de questions-réponses libres sur vidéo pour le réglage fin, un nouveau jeu de données de suivi d'objets avec des requêtes complexes, et un nouveau jeu de données innovant pour la désignation dans la vidéo, le tout collecté sans utiliser de VLM fermés. Nous présentons également une méthode d'entraînement pour ces données utilisant un système efficace de *packing* et d'encodage par arbre de messages, et montrons qu'une attention bidirectionnelle sur les tokens visuels et une nouvelle stratégie de pondération des tokens améliorent les performances. Notre modèle de 8B, le meilleur de sa catégorie, surpasse les autres modèles open source (poids et données ouverts) sur les vidéos courtes, le décompte et la description, et est compétitif sur les vidéos longues. Pour l'ancrage vidéo, Molmo2 surpasse significativement les modèles open source existants comme Qwen3-VL (35,5 contre 29,6 de précision sur le décompte vidéo) et dépasse les modèles propriétaires comme Gemini 3 Pro sur certaines tâches (38,4 contre 20,0 en F1 sur la désignation vidéo et 56,2 contre 41,1 en J&F sur le suivi vidéo).
English
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).
PDF150January 17, 2026