Molmo2: 映像理解とグラウンディング機能を備えた視覚言語モデルのオープンウェイトとデータ
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
January 15, 2026
著者: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI
要旨
今日最も強力なビデオ言語モデル(VLM)は、依然としてプロプライエタリなモデルが占めている。最も強力なオープンウェイトモデルは、プロプライエタリなVLMから生成された合成データに依存して実質的にそれらから知識蒸留しているか、あるいは学習データやレシピを開示していない。その結果、オープンソースコミュニティは、最先端のビデオ(および画像)言語モデルを改善するために必要な基盤を欠いている。決定的に重要なのは、多くのダウンストリームアプリケーションが高レベルのビデオ理解だけでは不十分であり、ポイントングまたはピクセル単位のトラッキングによるグラウンディングを必要とすることである。プロプライエタリモデルでさえこの能力を欠いている。我々はMolmo2を発表する。これはオープンソースモデルの中で最先端であり、単一画像、複数画像、ビデオタスクにおけるポイント駆動型グラウンディングで卓越した新機能を示す新ファミリーのVLMである。我々の主な貢献は、7つの新規ビデオデータセットと2つの複数画像データセットのコレクションである。これには、事前学習のための詳細なビデオキャプションデータセット、ファインチューニングのための自由形式のビデオ質疑応答データセット、複雑なクエリを含む新規オブジェクトトラッキングデータセット、革新的な新規ビデオポイントングデータセットが含まれ、全てクローズドなVLMを使用せずに収集された。我々はまた、効率的なパッキングとメッセージツリーエンコーディングスキームを利用したこのデータのトレーニングレシピを提示し、ビジョントークンに対する双方向アテンションと新規のトークン重み付け戦略が性能を向上させることを示す。我々の最高性能の8Bモデルは、ショートビデオ、カウンティング、キャプショニングにおいて、オープンウェイトおよびオープンデータモデルのクラスで他を凌駕し、ロングビデオでも競争力がある。ビデオグラウンディングにおいて、Molmo2はQwen3-VLのような既存のオープンウェイトモデルを大幅に上回り(ビデオカウンティング精度35.5対29.6)、一部タスクではGemini 3 Proのようなプロプライエタリモデルも超える(ビデオポイントングF1スコア38.4対20.0、ビデオトラッキングJ&Fスコア56.2対41.1)。
English
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).