Molmo2: 비디오 이해 및 기반화 기능을 갖춘 시각-언어 모델의 오픈 웨이트와 데이터
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
January 15, 2026
저자: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna
cs.AI
초록
현재 가장 강력한 비디오-언어 모델(VLM)은 여전히 독점 모델입니다. 가장 성능이 뛰어난 오픈 웨이트 모델들은 독점 VLM에서 생성된 합성 데이터에 의존하거나, 효과적으로 해당 모델들을 지식 증류하거나, 아니면 학습 데이터나 레시피를 공개하지 않고 있습니다. 그 결과, 오픈소스 커뮤니티는 최첨단 비디오(및 이미지) 언어 모델을 개선하는 데 필요한 기반을 갖추지 못하고 있습니다. 중요한 것은 많은 다운스트림 애플리케이션이 높은 수준의 비디오 이해 이상을 요구한다는 점입니다. 즉, 포인팅이나 픽셀 단위 추적을 통한 그라운딩이 필요합니다. 심지어 독점 모델들도 이러한 능력이 부족합니다. 본 논문은 오픈소스 모델 중 최첨단 성능을 보이며, 단일 이미지, 다중 이미지, 비디오 작업에서 포인트 기반 그라운딩이라는 탁월한 새로운 능력을 보여주는 새로운 VLM 패밀리인 Molmo2를 소개합니다. 우리의 주요 기여는 7개의 새로운 비디오 데이터셋과 2개의 다중 이미지 데이터셋 컬렉션입니다. 여기에는 사전 학습을 위한 고도로 상세한 비디오 캡션 데이터셋, 미세 조정을 위한 자유 형식 비디오 질의응답 데이터셋, 복잡한 쿼리가 포함된 새로운 객체 추적 데이터셋, 그리고 혁신적인 새로운 비디오 포인팅 데이터셋이 모두 독점 VLM을 사용하지 않고 수집되었습니다. 또한 효율적인 패킹 및 메시지 트리 인코딩 방식을 활용한 이 데이터에 대한 학습 레시피를 제시하고, 비전 토큰에 대한 양방향 어텐션과 새로운 토큰 가중치 전략이 성능을 향상시킴을 보여줍니다. 우리의 최고 수준 8B 모델은 짧은 비디오, 카운팅, 캡션 생성 작업에서 오픈 웨이트 및 데이터 모델 부문의 다른 모델들을 능가하며, 긴 비디오 작업에서도 경쟁력을 보입니다. 비디오 그라운딩에서 Molmo2는 Qwen3-VL과 같은 기존 오픈 웨이트 모델들을 크게 앞섰으며(비디오 카운팅 정확도 35.5 대 29.6), 일부 작업에서는 Gemini 3 Pro와 같은 독점 모델도 능가했습니다(비디오 포인팅 F1 38.4 대 20.0, 비디오 추적 J&F 56.2 대 41.1).
English
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).