すべてを分割するトークン:動画における言語指示された推論セグメンテーション
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
著者: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
要旨
VideoLISAは、言語による推論セグメンテーション問題に取り組むために設計された、ビデオベースのマルチモーダル大規模言語モデルを紹介します。大規模言語モデルの推論能力と世界知識を活用し、Segment Anythingモデルによって拡張されたVideoLISAは、言語指示に基づいてビデオ内の時間的に一貫したセグメンテーションマスクを生成します。LISAなどの既存の画像ベースの手法は、追加の時間的次元によりビデオタスクに苦労しており、時間的なダイナミック理解とフレーム間での一貫したセグメンテーションが必要です。VideoLISAは、計算上の制約内で時間的コンテキストと空間的詳細をバランスするSparse Dense Sampling戦略をビデオ-LLMに統合することで、これらの課題に対処します。さらに、特別に設計された<TRK>トークンを使用したOne-Token-Seg-Allアプローチを提案し、モデルが複数フレームにわたってオブジェクトをセグメントおよびトラッキングできるようにします。ReasonVOSベンチマークを含むさまざまなベンチマークでの包括的な評価により、VideoLISAは、複雑な推論、時間理解、およびオブジェクトトラッキングを必要とするビデオオブジェクトセグメンテーションタスクにおいて優れた性能を示すことが示されます。ビデオに最適化されていますが、VideoLISAは画像セグメンテーションにも有望な汎化性能を示し、言語によるオブジェクトセグメンテーションの統一基盤モデルとしての潜在能力を明らかにします。コードとモデルは以下で入手可能です:https://github.com/showlab/VideoLISA。
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.Summary
AI-Generated Summary