Eén Token om ze allemaal te segmenteren: Taalinstructies voor segmentatie van redeneringen in video's
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
Auteurs: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
Samenvatting
We introduceren VideoLISA, een op video gebaseerd multimodaal groot taalmodel dat is ontworpen om het probleem van taal-geïnstrueerde redeneringssegmentatie in video's aan te pakken. Door gebruik te maken van de redeneercapaciteiten en wereldkennis van grote taalmodellen, en aangevuld met het Segment Anything Model, genereert VideoLISA temporeel consistente segmentatiemaskers in video's op basis van taalinstructies. Bestaande op beeld gebaseerde methoden, zoals LISA, hebben moeite met videotaken vanwege de extra temporele dimensie, die een temporeel dynamisch begrip en consistente segmentatie over frames vereist. VideoLISA pakt deze uitdagingen aan door een Sparse Dense Sampling-strategie te integreren in het video-LLM, die een balans biedt tussen temporele context en ruimtelijk detail binnen computationele beperkingen. Daarnaast stellen we een One-Token-Seg-All benadering voor met behulp van een speciaal ontworpen <TRK> token, waardoor het model objecten kan segmenteren en volgen over meerdere frames. Uitgebreide evaluaties op diverse benchmarks, waaronder onze nieuw geïntroduceerde ReasonVOS benchmark, tonen de superieure prestaties van VideoLISA aan in video-objectsegmentatietaken die complex redeneren, temporeel begrip en objecttracking vereisen. Hoewel geoptimaliseerd voor video's, toont VideoLISA ook veelbelovende generalisatie naar beeldsegmentatie, wat zijn potentieel als een verenigd basismodel voor taal-geïnstrueerde objectsegmentatie onthult. Code en model zijn beschikbaar op: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.Summary
AI-Generated Summary