PG-Video-LLaVA: Пиксельно-привязанные крупные видео-языковые модели
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
November 22, 2023
Авторы: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI
Аннотация
Расширение возможностей крупных мультимодальных моделей (LMM), основанных на изображениях, для работы с видео представляет собой сложную задачу из-за присущей видео данным сложности. Современные подходы, расширяющие LMM на основе изображений для работы с видео, либо не обладают способностью к локализации объектов (например, VideoChat, Video-ChatGPT, Video-LLaMA), либо не используют аудиосигналы для улучшения понимания видео (например, Video-ChatGPT). Для устранения этих недостатков мы предлагаем Video-LLaVA — первую LMM с возможностью локализации объектов на уровне пикселей, которая интегрирует аудиоподсказки, транскрибируя их в текст для обогащения понимания контекста видео. Наша платформа использует готовый трекер и новый модуль локализации, что позволяет ей пространственно и временно локализовать объекты в видео в соответствии с инструкциями пользователя. Мы оцениваем Video-LLaVA с использованием бенчмарков для генерации и ответов на вопросы на основе видео, а также вводим новые бенчмарки, специально разработанные для измерения производительности локализации объектов в видео на основе запросов. Кроме того, мы предлагаем использовать Vicuna вместо GPT-3.5, как это сделано в Video-ChatGPT, для бенчмаркинга видео-диалогов, что обеспечивает воспроизводимость результатов, что является проблемой из-за проприетарной природы GPT-3.5. Наша платформа основывается на современной модели LLaVA для изображений и расширяет её преимущества на видео-домен, демонстрируя значительные улучшения в задачах видео-диалогов и локализации объектов. Страница проекта: https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging
due to the inherent complexity of video data. The recent approaches extending
image-based LMM to videos either lack the grounding capabilities (e.g.,
VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for
better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we
propose Video-LLaVA, the first LMM with pixel-level grounding capability,
integrating audio cues by transcribing them into text to enrich video-context
understanding. Our framework uses an off-the-shelf tracker and a novel
grounding module, enabling it to spatially and temporally localize objects in
videos following user instructions. We evaluate Video-LLaVA using video-based
generative and question-answering benchmarks and introduce new benchmarks
specifically designed to measure prompt-based object grounding performance in
videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in
Video-ChatGPT, for video-based conversation benchmarking, ensuring
reproducibility of results which is a concern with the proprietary nature of
GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its
advantages to the video domain, delivering promising gains on video-based
conversation and grounding tasks. Project Page:
https://github.com/mbzuai-oryx/Video-LLaVA