Un Token per Segnarli Tutti: Segmentazione del Ragionamento Istruito dal Linguaggio nei Video
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
Autori: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
Abstract
Introduciamo VideoLISA, un grande modello linguistico multimodale basato su video progettato per affrontare il problema della segmentazione del ragionamento istruito dal linguaggio nei video. Sfruttando le capacità di ragionamento e la conoscenza del mondo dei grandi modelli linguistici, e potenziato dal Modello Segment Anything, VideoLISA genera maschere di segmentazione temporalmente coerenti nei video basandosi sulle istruzioni linguistiche. I metodi esistenti basati sull'immagine, come LISA, faticano con compiti video a causa della dimensione temporale aggiuntiva, che richiede una comprensione dinamica temporale e una segmentazione coerente tra i frame. VideoLISA affronta queste sfide integrando una strategia di campionamento sparso denso nel video-LLM, che bilancia il contesto temporale e il dettaglio spaziale entro vincoli computazionali. Inoltre, proponiamo un approccio One-Token-Seg-All utilizzando un token appositamente progettato <TRK>, consentendo al modello di segmentare e tracciare oggetti attraverso più frame. Valutazioni estese su diversi benchmark, inclusi il nostro nuovo benchmark ReasonVOS, dimostrano le prestazioni superiori di VideoLISA nei compiti di segmentazione degli oggetti video che coinvolgono ragionamenti complessi, comprensione temporale e tracciamento degli oggetti. Pur essendo ottimizzato per i video, VideoLISA mostra anche una promettente generalizzazione alla segmentazione delle immagini, rivelando il suo potenziale come modello fondamentale unificato per la segmentazione degli oggetti istruita dal linguaggio. Il codice e il modello saranno disponibili su: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.