Sa2VA : Mariage de SAM2 avec LLaVA pour une compréhension dense et ancrée des images et des vidéos
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
January 7, 2025
Auteurs: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI
Résumé
Ce travail présente Sa2VA, le premier modèle unifié pour une compréhension dense et ancrée à la fois des images et des vidéos. Contrairement aux modèles de langage multimodaux existants, qui sont souvent limités à des modalités et des tâches spécifiques, Sa2VA prend en charge une large gamme de tâches d'image et de vidéo, y compris la segmentation référentielle et la conversation, avec un ajustement minimal des instructions en une seule étape. Sa2VA combine SAM-2, un modèle de segmentation vidéo de base, avec LLaVA, un modèle vision-langage avancé, et unifie le texte, l'image et la vidéo dans un espace de jetons LLM partagé. En utilisant le LLM, Sa2VA génère des jetons d'instruction qui guident SAM-2 dans la production de masques précis, permettant une compréhension ancrée et multimodale du contenu visuel statique et dynamique. De plus, nous introduisons Ref-SAV, un ensemble de données auto-étiqueté contenant plus de 72k expressions d'objets dans des scènes vidéo complexes, conçu pour améliorer les performances du modèle. Nous validons également manuellement 2k objets vidéo dans les ensembles de données Ref-SAV pour évaluer la segmentation référentielle d'objets vidéo dans des environnements complexes. Les expériences montrent que Sa2VA atteint l'état de l'art dans plusieurs tâches, en particulier dans la segmentation référentielle d'objets vidéo, mettant en évidence son potentiel pour des applications complexes du monde réel.
English
This work presents Sa2VA, the first unified model for dense grounded
understanding of both images and videos. Unlike existing multi-modal large
language models, which are often limited to specific modalities and tasks,
Sa2VA supports a wide range of image and video tasks, including referring
segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA
combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced
vision-language model, and unifies text, image, and video into a shared LLM
token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2
in producing precise masks, enabling a grounded, multi-modal understanding of
both static and dynamic visual content. Additionally, we introduce Ref-SAV, an
auto-labeled dataset containing over 72k object expressions in complex video
scenes, designed to boost model performance. We also manually validate 2k video
objects in the Ref-SAV datasets to benchmark referring video object
segmentation in complex environments. Experiments show that Sa2VA achieves
state-of-the-art across multiple tasks, particularly in referring video object
segmentation, highlighting its potential for complex real-world applications.Summary
AI-Generated Summary