ChatPaper.aiChatPaper

Un jeton pour les gouverner tous : segmentation raisonnée par instruction de langage dans les vidéos

One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos

September 29, 2024
Auteurs: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI

Résumé

Nous présentons VideoLISA, un grand modèle linguistique multimodal basé sur la vidéo conçu pour résoudre le problème de la segmentation du raisonnement instruit par le langage dans les vidéos. En exploitant les capacités de raisonnement et les connaissances du monde des grands modèles linguistiques, et renforcé par le modèle Segment Anything, VideoLISA génère des masques de segmentation temporellement cohérents dans les vidéos en se basant sur des instructions en langage naturel. Les méthodes existantes basées sur les images, telles que LISA, rencontrent des difficultés avec les tâches vidéo en raison de la dimension temporelle supplémentaire, qui nécessite une compréhension dynamique temporelle et une segmentation cohérente à travers les images. VideoLISA relève ces défis en intégrant une stratégie d'échantillonnage dense et clairsemé dans le vidéo-LLM, qui équilibre le contexte temporel et le détail spatial dans les contraintes computationnelles. De plus, nous proposons une approche One-Token-Seg-All en utilisant un jeton spécialement conçu <TRK>, permettant au modèle de segmenter et de suivre les objets à travers plusieurs images. Des évaluations approfondies sur divers benchmarks, y compris notre nouveau benchmark ReasonVOS, démontrent les performances supérieures de VideoLISA dans les tâches de segmentation d'objets vidéo impliquant un raisonnement complexe, une compréhension temporelle et un suivi d'objets. Bien qu'optimisé pour les vidéos, VideoLISA montre également une généralisation prometteuse à la segmentation d'images, révélant son potentiel en tant que modèle fondamental unifié pour la segmentation d'objets instruite par le langage. Le code et le modèle seront disponibles sur : https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model designed to tackle the problem of language-instructed reasoning segmentation in videos. Leveraging the reasoning capabilities and world knowledge of large language models, and augmented by the Segment Anything Model, VideoLISA generates temporally consistent segmentation masks in videos based on language instructions. Existing image-based methods, such as LISA, struggle with video tasks due to the additional temporal dimension, which requires temporal dynamic understanding and consistent segmentation across frames. VideoLISA addresses these challenges by integrating a Sparse Dense Sampling strategy into the video-LLM, which balances temporal context and spatial detail within computational constraints. Additionally, we propose a One-Token-Seg-All approach using a specially designed <TRK> token, enabling the model to segment and track objects across multiple frames. Extensive evaluations on diverse benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate VideoLISA's superior performance in video object segmentation tasks involving complex reasoning, temporal understanding, and object tracking. While optimized for videos, VideoLISA also shows promising generalization to image segmentation, revealing its potential as a unified foundation model for language-instructed object segmentation. Code and model will be available at: https://github.com/showlab/VideoLISA.

Summary

AI-Generated Summary

PDF193November 13, 2024