Pez Dorado: Comprensión Visión-Lenguaje de Videos de Longitud Arbitrariamente Larga
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
Autores: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
Resumen
La mayoría de los modelos actuales basados en LLM para la comprensión de videos pueden procesar videos en cuestión de minutos. Sin embargo, enfrentan dificultades con videos extensos debido a desafíos como "ruido y redundancia", así como limitaciones de "memoria y computación". En este documento, presentamos Goldfish, una metodología diseñada para comprender videos de longitudes arbitrarias. También introducimos el benchmark TVQA-long, específicamente diseñado para evaluar las capacidades de los modelos en la comprensión de videos largos con preguntas tanto en contenido visual como textual. Goldfish aborda estos desafíos con un mecanismo eficiente de recuperación que recopila inicialmente los clips de video más relevantes para la instrucción antes de proporcionar la respuesta deseada. Este diseño del mecanismo de recuperación permite que Goldfish procese eficientemente secuencias de video de longitud arbitraria, facilitando su aplicación en contextos como películas o series de televisión. Para facilitar el proceso de recuperación, desarrollamos MiniGPT4-Video que genera descripciones detalladas de los clips de video. Al abordar la escasez de benchmarks para la evaluación de videos largos, adaptamos el benchmark de videos cortos TVQA para un análisis de contenido extendido mediante la agregación de preguntas de episodios completos, trasladando así la evaluación de la comprensión parcial a la comprensión del episodio completo. Logramos una tasa de precisión del 41.78% en el benchmark TVQA-long, superando los métodos anteriores en un 14.94%. Nuestro MiniGPT4-Video también muestra un rendimiento excepcional en la comprensión de videos cortos, superando los métodos existentes más avanzados en un 3.23%, 2.03%, 16.5% y 23.59% en los benchmarks de videos cortos MSVD, MSRVTT, TGIF y TVQA, respectivamente. Estos resultados indican que nuestros modelos tienen mejoras significativas tanto en la comprensión de videos largos como cortos. Nuestros modelos y código están disponibles públicamente en https://vision-cair.github.io/Goldfish_website/
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/Summary
AI-Generated Summary