VideoGLaMM: Крупная мультимодальная модель для пиксельной визуальной привязки в видео
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
November 7, 2024
Авторы: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
cs.AI
Аннотация
Точное согласование видео и текста является сложной задачей из-за сложной пространственно-временной динамики видеоданных. Существующие видео-ориентированные большие мультимодальные модели (LMM) справляются с базовыми диалогами, но испытывают трудности с точной привязкой на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM — LMM, разработанную для детальной пиксельной привязки в видео на основе текстовых запросов пользователя. Наша архитектура бесшовно объединяет три ключевых компонента: большую языковую модель, двойной визуальный кодировщик, учитывающий как пространственные, так и временные детали, и пространственно-временной декодер для точного генерации масок. Это соединение обеспечивается с помощью настраиваемых адаптеров V-L и L-V, которые обеспечивают тесное согласование визуальных и языковых (VL) представлений. Архитектура обучается для синхронизации пространственных и временных элементов видеоконтента с текстовыми инструкциями. Для реализации детальной привязки мы создали мультимодальный датасет с подробными визуально-обоснованными диалогами, используя полуавтоматический пайплайн разметки, что позволило получить разнообразный набор из 38K видео-вопрос-ответных троек, включающий 83K объектов и 671K масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных диалогов, визуальная привязка и референциальная сегментация видео. Результаты экспериментов показывают, что наша модель стабильно превосходит существующие подходы по всем трем задачам.
English
Fine-grained alignment between videos and text is challenging due to complex
spatial and temporal dynamics in videos. Existing video-based Large Multimodal
Models (LMMs) handle basic conversations but struggle with precise pixel-level
grounding in videos. To address this, we introduce VideoGLaMM, a LMM designed
for fine-grained pixel-level grounding in videos based on user-provided textual
inputs. Our design seamlessly connects three key components: a Large Language
Model, a dual vision encoder that emphasizes both spatial and temporal details,
and a spatio-temporal decoder for accurate mask generation. This connection is
facilitated via tunable V-L and L-V adapters that enable close Vision-Language
(VL) alignment. The architecture is trained to synchronize both spatial and
temporal elements of video content with textual instructions. To enable
fine-grained grounding, we curate a multimodal dataset featuring detailed
visually-grounded conversations using a semiautomatic annotation pipeline,
resulting in a diverse set of 38k video-QA triplets along with 83k objects and
671k masks. We evaluate VideoGLaMM on three challenging tasks: Grounded
Conversation Generation, Visual Grounding, and Referring Video Segmentation.
Experimental results show that our model consistently outperforms existing
approaches across all three tasks.