ChatPaper.aiChatPaper

Sa2VA: Het huwelijk van SAM2 met LLaVA voor een dichte, gefundeerde begrip van afbeeldingen en video's

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

January 7, 2025
Auteurs: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
cs.AI

Samenvatting

Dit werk presenteert Sa2VA, het eerste verenigde model voor dichte verankerde begrip van zowel afbeeldingen als video's. In tegenstelling tot bestaande multimodale grote taalmodellen, die vaak beperkt zijn tot specifieke modaliteiten en taken, ondersteunt Sa2VA een breed scala aan beeld- en videotaken, waaronder verwijzende segmentatie en conversatie, met minimaal éénmalige instructieafstemming. Sa2VA combineert SAM-2, een basisvideosegmentatiemodel, met LLaVA, een geavanceerd visueel-taalmodel, en verenigt tekst, afbeelding en video in een gedeelde LLM-tokenruimte. Met behulp van de LLM genereert Sa2VA instructietokens die SAM-2 begeleiden bij het produceren van nauwkeurige maskers, waardoor een verankerd, multimodaal begrip van zowel statische als dynamische visuele inhoud mogelijk is. Daarnaast introduceren we Ref-SAV, een automatisch gelabelde dataset met meer dan 72k objectuitdrukkingen in complexe videoscènes, ontworpen om de modelprestaties te verbeteren. We valideren ook handmatig 2k video-objecten in de Ref-SAV-datasets om de verwijzende video-objectsegmentatie in complexe omgevingen te benchmarken. Experimenten tonen aan dat Sa2VA state-of-the-art bereikt op meerdere taken, met name in verwijzende video-objectsegmentatie, waarbij het potentieel voor complexe real-world toepassingen wordt benadrukt.
English
This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.

Summary

AI-Generated Summary

PDF462January 8, 2025