Один токен, чтобы их всех разделить: сегментация рассуждений на основе языка в видео
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
Авторы: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
Аннотация
Мы представляем VideoLISA, видеоориентированную мультимодальную крупномасштабную языковую модель, разработанную для решения проблемы сегментации рассуждений по языку в видео. Используя возможности рассуждений и мировые знания крупномасштабных языковых моделей, а также дополненную моделью Segment Anything, VideoLISA генерирует временно согласованные маски сегментации в видео на основе языковых инструкций. Существующие методы на основе изображений, такие как LISA, испытывают затруднения с видеозадачами из-за дополнительного временного измерения, требующего понимания временной динамики и согласованной сегментации между кадрами. VideoLISA решает эти проблемы, интегрируя стратегию разреженной плотной выборки в видео-ЯМ, которая балансирует временной контекст и пространственную детализацию в рамках вычислительных ограничений. Кроме того, мы предлагаем подход One-Token-Seg-All с использованием специально разработанного токена <TRK>, позволяющего модели сегментировать и отслеживать объекты на протяжении нескольких кадров. Обширные оценки на различных бенчмарках, включая наш недавно представленный бенчмарк ReasonVOS, демонстрируют превосходное качество работы VideoLISA в задачах сегментации объектов в видео, включающих сложные рассуждения, понимание времени и отслеживание объектов. Хотя оптимизирована для видео, VideoLISA также проявляет многообещающую обобщаемость к сегментации изображений, раскрывая свой потенциал как универсальная базовая модель для сегментации объектов по языковым инструкциям. Код и модель будут доступны по адресу: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.Summary
AI-Generated Summary