Sa2VA: Совмещение SAM2 с LLaVA для плотного осмысления изображений и видео
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
January 7, 2025
Авторы: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI
Аннотация
Эта работа представляет Sa2VA, первую объединенную модель для плотного обоснованного понимания как изображений, так и видео. В отличие от существующих мультимодальных крупных языковых моделей, которые часто ограничены определенными модальностями и задачами, Sa2VA поддерживает широкий спектр задач изображений и видео, включая сегментацию по ссылке и разговор, с минимальной настройкой инструкций одного прогона. Sa2VA объединяет SAM-2, модель основанную на видео-сегментации, с LLaVA, передовой моделью видение-язык, и объединяет текст, изображение и видео в общее пространство общих токенов LLM. Используя LLM, Sa2VA генерирует инструкционные токены, которые направляют SAM-2 на создание точных масок, обеспечивая обоснованное, мультимодальное понимание как статического, так и динамического визуального контента. Кроме того, мы представляем Ref-SAV, автоматически размеченный набор данных, содержащий более 72 тыс. выражений объектов в сложных видеосценах, разработанный для улучшения производительности модели. Мы также вручную проверяем 2 тыс. видеообъектов в наборах данных Ref-SAV для оценки сегментации объектов видео по ссылке в сложных средах. Эксперименты показывают, что Sa2VA достигает современного уровня в нескольких задачах, особенно в сегментации объектов видео по ссылке, подчеркивая его потенциал для сложных прикладных задач в реальном мире.
English
This work presents Sa2VA, the first unified model for dense grounded
understanding of both images and videos. Unlike existing multi-modal large
language models, which are often limited to specific modalities and tasks,
Sa2VA supports a wide range of image and video tasks, including referring
segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA
combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced
vision-language model, and unifies text, image, and video into a shared LLM
token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2
in producing precise masks, enabling a grounded, multi-modal understanding of
both static and dynamic visual content. Additionally, we introduce Ref-SAV, an
auto-labeled dataset containing over 72k object expressions in complex video
scenes, designed to boost model performance. We also manually validate 2k video
objects in the Ref-SAV datasets to benchmark referring video object
segmentation in complex environments. Experiments show that Sa2VA achieves
state-of-the-art across multiple tasks, particularly in referring video object
segmentation, highlighting its potential for complex real-world applications.Summary
AI-Generated Summary