Sa2VA: Combinando SAM2 con LLaVA para una comprensión densa y fundamentada de imágenes y videos
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
January 7, 2025
Autores: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI
Resumen
Este trabajo presenta Sa2VA, el primer modelo unificado para la comprensión densa fundamentada de imágenes y videos. A diferencia de los modelos de lenguaje grandes multi-modales existentes, que a menudo están limitados a modalidades y tareas específicas, Sa2VA soporta una amplia gama de tareas de imagen y video, incluyendo segmentación referencial y conversación, con ajuste mínimo de instrucción de una sola vez. Sa2VA combina SAM-2, un modelo base de segmentación de video, con LLaVA, un modelo avanzado de visión y lenguaje, y unifica texto, imagen y video en un espacio compartido de tokens de LLM. Utilizando el LLM, Sa2VA genera tokens de instrucción que guían a SAM-2 para producir máscaras precisas, permitiendo una comprensión fundamentada y multi-modal de contenido visual estático y dinámico. Además, presentamos Ref-SAV, un conjunto de datos autoetiquetado que contiene más de 72k expresiones de objetos en escenas de video complejas, diseñado para mejorar el rendimiento del modelo. También validamos manualmente 2k objetos de video en los conjuntos de datos de Ref-SAV para evaluar la segmentación de objetos de video referencial en entornos complejos. Los experimentos muestran que Sa2VA logra el estado del arte en múltiples tareas, especialmente en la segmentación de objetos de video referencial, resaltando su potencial para aplicaciones complejas del mundo real.
English
This work presents Sa2VA, the first unified model for dense grounded
understanding of both images and videos. Unlike existing multi-modal large
language models, which are often limited to specific modalities and tasks,
Sa2VA supports a wide range of image and video tasks, including referring
segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA
combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced
vision-language model, and unifies text, image, and video into a shared LLM
token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2
in producing precise masks, enabling a grounded, multi-modal understanding of
both static and dynamic visual content. Additionally, we introduce Ref-SAV, an
auto-labeled dataset containing over 72k object expressions in complex video
scenes, designed to boost model performance. We also manually validate 2k video
objects in the Ref-SAV datasets to benchmark referring video object
segmentation in complex environments. Experiments show that Sa2VA achieves
state-of-the-art across multiple tasks, particularly in referring video object
segmentation, highlighting its potential for complex real-world applications.Summary
AI-Generated Summary