Sa2VA : Mariage de SAM2 avec LLaVA pour une compréhension dense et ancrée des images et des vidéos

papers.abstract

Ce travail présente Sa2VA, le premier modèle unifié pour une compréhension dense et ancrée à la fois des images et des vidéos. Contrairement aux modèles de langage multimodaux existants, qui sont souvent limités à des modalités et des tâches spécifiques, Sa2VA prend en charge une large gamme de tâches d'image et de vidéo, y compris la segmentation référentielle et la conversation, avec un ajustement minimal des instructions en une seule étape. Sa2VA combine SAM-2, un modèle de segmentation vidéo de base, avec LLaVA, un modèle vision-langage avancé, et unifie le texte, l'image et la vidéo dans un espace de jetons LLM partagé. En utilisant le LLM, Sa2VA génère des jetons d'instruction qui guident SAM-2 dans la production de masques précis, permettant une compréhension ancrée et multimodale du contenu visuel statique et dynamique. De plus, nous introduisons Ref-SAV, un ensemble de données auto-étiqueté contenant plus de 72k expressions d'objets dans des scènes vidéo complexes, conçu pour améliorer les performances du modèle. Nous validons également manuellement 2k objets vidéo dans les ensembles de données Ref-SAV pour évaluer la segmentation référentielle d'objets vidéo dans des environnements complexes. Les expériences montrent que Sa2VA atteint l'état de l'art dans plusieurs tâches, en particulier dans la segmentation référentielle d'objets vidéo, mettant en évidence son potentiel pour des applications complexes du monde réel.

English

This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.

Sa2VA : Mariage de SAM2 avec LLaVA pour une compréhension dense et ancrée des images et des vidéos

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

papers.abstract

Support