Molmo2: Modelli e Dati ad Accesso Aperto per Modelli Visione-Linguaggio con Comprensione Video e Grounding

Abstract

I modelli video-linguistici (VLM) più potenti attualmente disponibili rimangono proprietari. I modelli open-weight più performanti si basano su dati sintetici generati da VLM proprietari, effettivamente distillandone le capacità, oppure non divulgano i propri dati di addestramento o la metodologia. Di conseguenza, la comunità open-source manca delle basi necessarie per migliorare lo stato dell'arte nei modelli linguistici per video (e immagini). Punto cruciale, molte applicazioni downstream richiedono più della semplice comprensione video di alto livello; richiedono il *grounding* – sia tramite puntamento che tramite tracking a livello di pixel. Persino i modelli proprietari sono privi di questa capacità. Presentiamo Molmo2, una nuova famiglia di VLM che rappresentano lo stato dell'arte tra i modelli open-source e dimostrano eccezionali nuove capacità nel grounding guidato da punti in compiti su singola immagine, immagini multiple e video. Il nostro contributo principale è una raccolta di 7 nuovi dataset video e 2 dataset multi-immagine, che include un dataset di descrizioni video molto dettagliate per il pre-training, un dataset di domande e risposte video libere per il fine-tuning, un nuovo dataset di object tracking con query complesse e un innovativo dataset di puntamento video, tutti raccolti senza l'uso di VLM chiusi. Presentiamo inoltre una metodologia di addestramento per questi dati che utilizza uno schema efficiente di impacchettamento e codifica ad albero dei messaggi, e dimostriamo come un'attenzione bidirezionale sui token visivi e una nuova strategia di pesatura dei token migliorino le prestazioni. Il nostro modello da 8B, il migliore nella sua categoria, supera gli altri nella classe dei modelli open weight e data su video brevi, conteggio e descrizione, ed è competitivo sui video lunghi. Sul grounding video, Molmo2 supera significativamente i modelli open-weight esistenti come Qwen3-VL (35.5 vs 29.6 di accuratezza sul conteggio video) e supera modelli proprietari come Gemini 3 Pro in alcuni compiti (38.4 vs 20.0 F1 sul puntamento video e 56.2 vs 41.1 J&F sul tracking video).

English

Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).

Molmo2: Modelli e Dati ad Accesso Aperto per Modelli Visione-Linguaggio con Comprensione Video e Grounding

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Abstract

Support