Um Token para Segmentá-los Todos: Segmentação de Raciocínio Instruída por Linguagem em Vídeos
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
Autores: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
Resumo
Apresentamos o VideoLISA, um grande modelo de linguagem multimodal baseado em vídeo projetado para lidar com o problema da segmentação de raciocínio instruída por linguagem em vídeos. Aproveitando as capacidades de raciocínio e conhecimento do mundo de grandes modelos de linguagem, e complementado pelo Modelo Segment Anything, o VideoLISA gera máscaras de segmentação temporalmente consistentes em vídeos com base em instruções de linguagem. Métodos existentes baseados em imagem, como o LISA, enfrentam desafios em tarefas de vídeo devido à dimensão temporal adicional, que requer compreensão dinâmica temporal e segmentação consistente em todos os quadros. O VideoLISA aborda esses desafios integrando uma estratégia de Amostragem Esparsa Densa no video-LLM, que equilibra o contexto temporal e o detalhe espacial dentro de limitações computacionais. Além disso, propomos uma abordagem One-Token-Seg-All usando um token especialmente projetado <TRK>, permitindo que o modelo segmente e rastreie objetos em vários quadros. Avaliações extensas em diversos benchmarks, incluindo nosso novo benchmark ReasonVOS, demonstram o desempenho superior do VideoLISA em tarefas de segmentação de objetos em vídeo envolvendo raciocínio complexo, compreensão temporal e rastreamento de objetos. Embora otimizado para vídeos, o VideoLISA também mostra uma generalização promissora para segmentação de imagem, revelando seu potencial como um modelo de base unificado para segmentação de objetos instruída por linguagem. O código e o modelo estarão disponíveis em: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.Summary
AI-Generated Summary