ChatPaper.aiChatPaper

Sa2VA: Die Verbindung von SAM2 mit LLaVA für eine dichte fundierte Verständnis von Bildern und Videos

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

January 7, 2025
Autoren: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI

Zusammenfassung

Diese Arbeit präsentiert Sa2VA, das erste vereinheitlichte Modell für dichtes verankertes Verständnis sowohl von Bildern als auch von Videos. Im Gegensatz zu bestehenden multimodalen großen Sprachmodellen, die oft auf spezifische Modalitäten und Aufgaben beschränkt sind, unterstützt Sa2VA eine breite Palette von Bild- und Videoaufgaben, einschließlich referenzierter Segmentierung und Konversation, mit minimalem Feinabgleich von Einzelschritt-Anweisungen. Sa2VA kombiniert SAM-2, ein grundlegendes Video-Segmentierungsmodell, mit LLaVA, einem fortschrittlichen Bildsprachmodell, und vereint Text, Bild und Video in einem gemeinsamen LLM-Tokenraum. Unter Verwendung des LLM generiert Sa2VA Anweisungstoken, die SAM-2 bei der Erstellung präziser Masken anleiten, was ein verankertes, multimodales Verständnis sowohl statischer als auch dynamischer visueller Inhalte ermöglicht. Darüber hinaus stellen wir Ref-SAV vor, einen automatisch beschrifteten Datensatz mit über 72.000 Objektausdrücken in komplexen Videoszenen, der die Leistung des Modells verbessern soll. Wir validieren auch manuell 2.000 Videoobjekte in den Ref-SAV-Datensätzen, um die Segmentierung referenzierter Videoobjekte in komplexen Umgebungen zu bewerten. Experimente zeigen, dass Sa2VA in mehreren Aufgaben den Stand der Technik erreicht, insbesondere bei der Segmentierung referenzierter Videoobjekte, was sein Potenzial für komplexe Anwendungen in der realen Welt unterstreicht.
English
This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.

Summary

AI-Generated Summary

PDF462January 8, 2025