Molmo2: Pesos y Datos Abiertos para Modelos de Lenguaje-Visión con Comprensión y Anclaje en Video
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
January 15, 2026
Autores: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI
Resumen
Los modelos de video-lenguaje (VLM) más potentes actualmente siguen siendo propietarios. Los modelos de código abierto más robustos o bien dependen de datos sintéticos generados por VLMs propietarios, efectivamente destilando conocimiento de ellos, o no revelan sus datos de entrenamiento o metodología. Como resultado, la comunidad de código abierto carece de los cimientos necesarios para mejorar el estado del arte en modelos de lenguaje para video (e imagen). Es crucial destacar que muchas aplicaciones derivadas requieren algo más que una comprensión de alto nivel del video; necesitan una capacidad de grounding (anclaje) —ya sea mediante señalamiento o seguimiento a nivel de píxeles—. Incluso los modelos propietarios carecen de esta capacidad. Presentamos Molmo2, una nueva familia de VLMs que establecen el estado del arte entre los modelos de código abierto y demuestran capacidades excepcionales y novedosas en el grounding mediante puntos en tareas de imagen única, múltiples imágenes y video. Nuestra contribución clave es una colección de 7 nuevos conjuntos de datos de video y 2 de múltiples imágenes, que incluyen un conjunto de datos de descripciones de video muy detalladas para el pre-entrenamiento, un conjunto de datos de preguntas y respuestas libres sobre video para el ajuste fino, un nuevo conjunto de datos de seguimiento de objetos con consultas complejas y un innovador conjunto de datos de señalamiento en video, todos recopilados sin utilizar VLMs cerrados. También presentamos una metodología de entrenamiento para estos datos que utiliza un esquema eficiente de empaquetado y codificación de árbol de mensajes, y demostramos que la atención bidireccional sobre los tokens visuales y una novedosa estrategia de ponderación de tokens mejora el rendimiento. Nuestro modelo de 8B, líder en su clase, supera a otros en la categoría de modelos con pesos y datos abiertos en videos cortos, conteo y generación de descripciones, y es competitivo en videos largos. En cuanto al grounding en video, Molmo2 supera significativamente a los modelos de pesos abiertos existentes como Qwen3-VL (35.5 vs 29.6 de precisión en conteo de video) y supera a modelos propietarios como Gemini 3 Pro en algunas tareas (38.4 vs 20.0 F1 en señalamiento en video y 56.2 vs 41.1 J&F en seguimiento de video).
English
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).