Molmo2: Pesos e Dados Abertos para Modelos de Linguagem Visual com Compreensão e Ancoragem em Vídeo

Resumo

Os modelos vídeo-linguagem (VLMs) mais avançados atualmente continuam sendo proprietários. Os modelos de pesos abertos mais robustos ou dependem de dados sintéticos de VLMs proprietários, efetivamente destilando-os, ou não divulgam seus dados ou metodologia de treinamento. Consequentemente, a comunidade de código aberto carece das bases necessárias para avançar além do estado da arte em modelos linguagem para vídeo (e imagem). Crucialmente, muitas aplicações downstream exigem mais do que apenas compreensão de vídeo de alto nível; elas requerem grounding – seja por apontamento ou rastreamento em pixels. Até mesmo os modelos proprietários carecem dessa capacidade. Apresentamos o Molmo2, uma nova família de VLMs que representa o estado da arte entre os modelos de código aberto e demonstra capacidades excepcionais e inéditas em tarefas de grounding por apontamento em imagem única, múltiplas imagens e vídeos. Nossa principal contribuição é um conjunto de 7 novos conjuntos de dados de vídeo e 2 de múltiplas imagens, incluindo um conjunto de legendas de vídeo altamente detalhadas para pré-treinamento, um conjunto de dados de perguntas e respostas livres em vídeo para ajuste fino, um novo conjunto de dados de rastreamento de objetos com consultas complexas e um conjunto de dados inovador de apontamento em vídeo, todos coletados sem o uso de VLMs fechados. Também apresentamos uma metodologia de treinamento para esses dados que utiliza um esquema eficiente de empacotamento e codificação de árvore de mensagens, e demonstramos que a atenção bidirecional em tokens visuais e uma nova estratégia de ponderação de tokens melhoram o desempenho. Nosso modelo de 8B, líder em sua classe, supera outros na categoria de modelos de pesos e dados abertos em vídeos curtos, contagem e legendagem, e é competitivo em vídeos longos. Em grounding de vídeo, o Molmo2 supera significativamente modelos de pesos abertos existentes, como o Qwen3-VL (35,5 vs 29,6 de precisão em contagem de vídeo), e ultrapassa modelos proprietários como o Gemini 3 Pro em algumas tarefas (38,4 vs 20,0 F1 em apontamento de vídeo e 56,2 vs 41,1 J&F em rastreamento de vídeo).

English

Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).

Molmo2: Pesos e Dados Abertos para Modelos de Linguagem Visual com Compreensão e Ancoragem em Vídeo

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Resumo

Support