ChatPaper.aiChatPaper

VideoMolmo: Räumlich-zeitliche Verankerung trifft auf Zeigegesten

VideoMolmo: Spatio-Temporal Grounding Meets Pointing

June 5, 2025
Autoren: Ghazi Shazan Ahmad, Ahmed Heakl, Hanan Gani, Abdelrahman Shaker, Zhiqiang Shen, Ranjay Krishna, Fahad Shahbaz Khan, Salman Khan
cs.AI

Zusammenfassung

Die räumlich-zeitliche Lokalisierung ist entscheidend für präzise Interaktionen in verschiedenen Bereichen, von der biologischen Forschung über die autonome Navigation bis hin zu interaktiven Schnittstellen. Aktuelle videobasierte Ansätze, obwohl sie in der Verfolgung von Objekten kompetent sind, verfügen nicht über die ausgefeilten Fähigkeiten zur Schlussfolgerung, die große Sprachmodelle bieten, was ihr kontextuelles Verständnis und ihre Generalisierungsfähigkeit einschränkt. Wir stellen VideoMolmo vor, ein großes multimodales Modell, das für die feinkörnige räumlich-zeitliche Lokalisierung auf der Grundlage von Textbeschreibungen entwickelt wurde. Basierend auf der Molmo-Architektur integriert VideoMolmo ein temporales Modul, das einen Aufmerksamkeitsmechanismus nutzt, um jedes Bild auf vorherige Bilder zu konditionieren und so zeitliche Konsistenz zu gewährleisten. Zusätzlich verwendet unsere neuartige Pipeline zur temporalen Maskenfusion SAM2 für die bidirektionale Punktpropagation, was die Kohärenz über Videosequenzen hinweg erheblich verbessert. Diese zweistufige Zerlegung, d.h. zunächst die Verwendung des Sprachmodells zur Erzeugung präziser Lokalisierungskoordinaten, gefolgt von einem sequenziellen Maskenfusionsmodul zur Erzeugung kohärenter Segmentierung, vereinfacht nicht nur die Aufgabe für das Sprachmodell, sondern erhöht auch die Interpretierbarkeit. Aufgrund des Mangels an geeigneten Datensätzen haben wir einen umfassenden Datensatz mit 72.000 Video-Beschreibungs-Paaren kuratiert, die mit 100.000 Objektpunkten annotiert sind. Um die Generalisierungsfähigkeit von VideoMolmo zu bewerten, führen wir VPoS-Bench ein, einen herausfordernden Out-of-Distribution-Benchmark, der fünf reale Szenarien abdeckt: Zellverfolgung, egozentrische Vision, autonomes Fahren, Video-GUI-Interaktion und Robotik. Wir bewerten unser Modell auch anhand von Referring Video Object Segmentation (Refer-VOS) und Reasoning VOS Aufgaben. Im Vergleich zu bestehenden Modellen verbessert VideoMolmo die räumlich-zeitliche Lokalisierungsgenauigkeit und die Fähigkeit zur Schlussfolgerung erheblich. Unser Code und unsere Modelle sind öffentlich unter https://github.com/mbzuai-oryx/VideoMolmo verfügbar.
English
Spatio-temporal localization is vital for precise interactions across diverse domains, from biological research to autonomous navigation and interactive interfaces. Current video-based approaches, while proficient in tracking, lack the sophisticated reasoning capabilities of large language models, limiting their contextual understanding and generalization. We introduce VideoMolmo, a large multimodal model tailored for fine-grained spatio-temporal pointing conditioned on textual descriptions. Building upon the Molmo architecture, VideoMolmo incorporates a temporal module utilizing an attention mechanism to condition each frame on preceding frames, ensuring temporal consistency. Additionally, our novel temporal mask fusion pipeline employs SAM2 for bidirectional point propagation, significantly enhancing coherence across video sequences. This two-step decomposition, i.e., first using the LLM to generate precise pointing coordinates, then relying on a sequential mask-fusion module to produce coherent segmentation, not only simplifies the task for the language model but also enhances interpretability. Due to the lack of suitable datasets, we curate a comprehensive dataset comprising 72k video-caption pairs annotated with 100k object points. To evaluate the generalization of VideoMolmo, we introduce VPoS-Bench, a challenging out-of-distribution benchmark spanning five real-world scenarios: Cell Tracking, Egocentric Vision, Autonomous Driving, Video-GUI Interaction, and Robotics. We also evaluate our model on Referring Video Object Segmentation (Refer-VOS) and Reasoning VOS tasks. In comparison to existing models, VideoMolmo substantially improves spatio-temporal pointing accuracy and reasoning capability. Our code and models are publicly available at https://github.com/mbzuai-oryx/VideoMolmo.
PDF56June 18, 2025