Un Token para Segmentarlos a Todos: Segmentación de Razonamiento Instruido por Lenguaje en Videos
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
September 29, 2024
Autores: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
cs.AI
Resumen
Presentamos VideoLISA, un modelo de lenguaje grande multimodal basado en video diseñado para abordar el problema de segmentación de razonamiento instruido por lenguaje en videos. Aprovechando las capacidades de razonamiento y conocimiento del mundo de los modelos de lenguaje grandes, y potenciado por el Modelo Segment Anything, VideoLISA genera máscaras de segmentación temporalmente consistentes en videos basadas en instrucciones de lenguaje. Los métodos existentes basados en imágenes, como LISA, tienen dificultades con tareas de video debido a la dimensión temporal adicional, que requiere comprensión dinámica temporal y segmentación consistente en todos los fotogramas. VideoLISA aborda estos desafíos integrando una estrategia de Muestreo Denso Espaciado en el video-LLM, que equilibra el contexto temporal y el detalle espacial dentro de las limitaciones computacionales. Además, proponemos un enfoque One-Token-Seg-All utilizando un token especialmente diseñado <TRK>, permitiendo al modelo segmentar y rastrear objetos a lo largo de múltiples fotogramas. Evaluaciones extensas en diversos benchmarks, incluido nuestro benchmark ReasonVOS recién introducido, demuestran el rendimiento superior de VideoLISA en tareas de segmentación de objetos en video que implican razonamiento complejo, comprensión temporal y seguimiento de objetos. Aunque optimizado para videos, VideoLISA también muestra una prometedora generalización a la segmentación de imágenes, revelando su potencial como un modelo base unificado para la segmentación de objetos instruida por lenguaje. El código y el modelo estarán disponibles en: https://github.com/showlab/VideoLISA.
English
We introduce VideoLISA, a video-based multimodal large language model
designed to tackle the problem of language-instructed reasoning segmentation in
videos. Leveraging the reasoning capabilities and world knowledge of large
language models, and augmented by the Segment Anything Model, VideoLISA
generates temporally consistent segmentation masks in videos based on language
instructions. Existing image-based methods, such as LISA, struggle with video
tasks due to the additional temporal dimension, which requires temporal dynamic
understanding and consistent segmentation across frames. VideoLISA addresses
these challenges by integrating a Sparse Dense Sampling strategy into the
video-LLM, which balances temporal context and spatial detail within
computational constraints. Additionally, we propose a One-Token-Seg-All
approach using a specially designed <TRK> token, enabling the model to segment
and track objects across multiple frames. Extensive evaluations on diverse
benchmarks, including our newly introduced ReasonVOS benchmark, demonstrate
VideoLISA's superior performance in video object segmentation tasks involving
complex reasoning, temporal understanding, and object tracking. While optimized
for videos, VideoLISA also shows promising generalization to image
segmentation, revealing its potential as a unified foundation model for
language-instructed object segmentation. Code and model will be available at:
https://github.com/showlab/VideoLISA.Summary
AI-Generated Summary