Ein Token, um sie alle zu segmentieren: Sprachgesteuerte Segmentierung des Denkens in Videos.
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
Autoren: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
Zusammenfassung
Wir stellen VideoLISA vor, ein auf Videos basierendes multimodales großes Sprachmodell, das entwickelt wurde, um das Problem der sprachgesteuerten Segmentierung von Schlussfolgerungen in Videos anzugehen. Durch die Nutzung der Schlussfolgerungsfähigkeiten und des Weltwissens großer Sprachmodelle und ergänzt durch das Segment Anything Model generiert VideoLISA zeitlich konsistente Segmentierungsmasken in Videos basierend auf sprachlichen Anweisungen. Bestehende bildbasierte Methoden, wie LISA, haben Schwierigkeiten mit Videoaufgaben aufgrund der zusätzlichen zeitlichen Dimension, die ein Verständnis für zeitliche Dynamik und konsistente Segmentierung über Frames hinweg erfordert. VideoLISA begegnet diesen Herausforderungen, indem es eine Strategie des Sparse Dense Sampling in das Video-LLM integriert, die das Gleichgewicht zwischen zeitlichem Kontext und räumlichen Details innerhalb von Rechenbeschränkungen herstellt. Zusätzlich schlagen wir einen One-Token-Seg-All-Ansatz unter Verwendung eines speziell entworfenen <TRK>-Tokens vor, der es dem Modell ermöglicht, Objekte über mehrere Frames hinweg zu segmentieren und zu verfolgen. Umfangreiche Evaluationen auf verschiedenen Benchmarks, einschließlich unseres neu eingeführten ReasonVOS-Benchmarks, zeigen die überlegene Leistung von VideoLISA bei Videoobjektsegmentierungsaufgaben, die komplexe Schlussfolgerungen, zeitliches Verständnis und Objektverfolgung beinhalten. Obwohl für Videos optimiert, zeigt VideoLISA auch vielversprechende Verallgemeinerungsmöglichkeiten für die Bildsegmentierung auf und offenbart damit ihr Potenzial als einheitliches Grundlagenmodell für sprachgesteuerte Objektsegmentierung. Code und Modell sind verfügbar unter: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.Summary
AI-Generated Summary