PG-Video-LLaVA: Modelos de Lenguaje y Video de Gran Escala con Anclaje a Píxeles
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
November 22, 2023
Autores: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI
Resumen
Extender los modelos multimodales grandes (LMM) basados en imágenes a videos es un desafío debido a la complejidad inherente de los datos de video. Los enfoques recientes que extienden los LMM basados en imágenes a videos carecen de capacidades de anclaje (por ejemplo, VideoChat, Video-ChatGPT, Video-LLaMA) o no utilizan las señales de audio para una mejor comprensión del video (por ejemplo, Video-ChatGPT). Para abordar estas limitaciones, proponemos Video-LLaVA, el primer LMM con capacidad de anclaje a nivel de píxeles, que integra señales de audio transcribiéndolas en texto para enriquecer la comprensión del contexto del video. Nuestro marco utiliza un rastreador estándar y un nuevo módulo de anclaje, permitiéndole localizar objetos en videos de manera espacial y temporal siguiendo las instrucciones del usuario. Evaluamos Video-LLaVA utilizando benchmarks generativos y de preguntas y respuestas basados en video, e introducimos nuevos benchmarks diseñados específicamente para medir el rendimiento del anclaje de objetos basado en instrucciones en videos. Además, proponemos el uso de Vicuna en lugar de GPT-3.5, como se utiliza en Video-ChatGPT, para la evaluación de conversaciones basadas en video, asegurando la reproducibilidad de los resultados, lo cual es una preocupación debido a la naturaleza propietaria de GPT-3.5. Nuestro marco se basa en el modelo LLaVA basado en imágenes de última generación y extiende sus ventajas al dominio del video, logrando avances prometedores en tareas de conversación y anclaje basadas en video. Página del proyecto: https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging
due to the inherent complexity of video data. The recent approaches extending
image-based LMM to videos either lack the grounding capabilities (e.g.,
VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for
better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we
propose Video-LLaVA, the first LMM with pixel-level grounding capability,
integrating audio cues by transcribing them into text to enrich video-context
understanding. Our framework uses an off-the-shelf tracker and a novel
grounding module, enabling it to spatially and temporally localize objects in
videos following user instructions. We evaluate Video-LLaVA using video-based
generative and question-answering benchmarks and introduce new benchmarks
specifically designed to measure prompt-based object grounding performance in
videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in
Video-ChatGPT, for video-based conversation benchmarking, ensuring
reproducibility of results which is a concern with the proprietary nature of
GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its
advantages to the video domain, delivering promising gains on video-based
conversation and grounding tasks. Project Page:
https://github.com/mbzuai-oryx/Video-LLaVA