Goldfish : Compréhension vision-langage de vidéos de longueur arbitraire
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
Auteurs: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
Résumé
La plupart des modèles actuels basés sur LLM pour la compréhension vidéo peuvent traiter des vidéos en quelques minutes. Cependant, ils rencontrent des difficultés avec les vidéos longues en raison de défis tels que le "bruit et la redondance", ainsi que les contraintes de "mémoire et de calcul". Dans cet article, nous présentons Goldfish, une méthodologie conçue pour comprendre des vidéos de longueur arbitraire. Nous introduisons également le benchmark TVQA-long, spécifiquement élaboré pour évaluer les capacités des modèles à comprendre des vidéos longues avec des questions portant à la fois sur le contenu visuel et textuel. Goldfish aborde ces défis avec un mécanisme de récupération efficace qui collecte d'abord les k clips vidéo les plus pertinents par rapport à l'instruction avant de fournir la réponse souhaitée. Cette conception du mécanisme de récupération permet à Goldfish de traiter efficacement des séquences vidéo de longueur arbitraire, facilitant son application dans des contextes tels que les films ou les séries télévisées. Pour faciliter le processus de récupération, nous avons développé MiniGPT4-Video, qui génère des descriptions détaillées pour les clips vidéo. Pour pallier le manque de benchmarks pour l'évaluation des vidéos longues, nous avons adapté le benchmark TVQA pour les vidéos courtes en vue d'une analyse de contenu étendue en agrégeant des questions provenant d'épisodes entiers, passant ainsi d'une évaluation partielle à une compréhension complète de l'épisode. Nous avons atteint un taux de précision de 41,78 % sur le benchmark TVQA-long, surpassant les méthodes précédentes de 14,94 %. Notre MiniGPT4-Video montre également des performances exceptionnelles dans la compréhension des vidéos courtes, dépassant les méthodes état de l'art existantes de 3,23 %, 2,03 %, 16,5 % et 23,59 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA pour les vidéos courtes, respectivement. Ces résultats indiquent que nos modèles apportent des améliorations significatives dans la compréhension des vidéos longues et courtes. Nos modèles et notre code sont disponibles publiquement à l'adresse https://vision-cair.github.io/Goldfish_website/.
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/Summary
AI-Generated Summary