Goldfish: Visueel-Taalbegrip van Willekeurig Lange Video's
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
Auteurs: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
Samenvatting
De meeste huidige LLM-gebaseerde modellen voor videobegrip kunnen video's binnen enkele minuten verwerken. Ze hebben echter moeite met lange video's vanwege uitdagingen zoals "ruis en redundantie", evenals "geheugen- en rekenbeperkingen". In dit artikel presenteren we Goldfish, een methodologie die is afgestemd op het begrijpen van video's van willekeurige lengtes. We introduceren ook de TVQA-long benchmark, die specifiek is ontworpen om de capaciteiten van modellen te evalueren in het begrijpen van lange video's met vragen over zowel visuele als tekstuele inhoud. Goldfish benadert deze uitdagingen met een efficiënt retrievalsysteem dat eerst de top-k videoclips verzamelt die relevant zijn voor de instructie, voordat het het gewenste antwoord geeft. Dit ontwerp van het retrievalsysteem stelt Goldfish in staat om willekeurig lange videosequenties efficiënt te verwerken, wat de toepassing ervan in contexten zoals films of televisieseries vergemakkelijkt. Om het retrievalsysteem te faciliteren, ontwikkelden we MiniGPT4-Video, dat gedetailleerde beschrijvingen genereert voor de videoclips. Om het gebrek aan benchmarks voor lange video-evaluatie aan te pakken, hebben we de TVQA short video benchmark aangepast voor uitgebreide inhoudsanalyse door vragen van hele afleveringen te aggregeren, waardoor de evaluatie verschuift van gedeeltelijk naar volledig afleveringsbegrip. We behaalden een nauwkeurigheid van 41,78% op de TVQA-long benchmark, wat een verbetering is van 14,94% ten opzichte van eerdere methoden. Onze MiniGPT4-Video toont ook uitzonderlijke prestaties in kort videobegrip, waarbij het bestaande state-of-the-art methoden overtreft met respectievelijk 3,23%, 2,03%, 16,5% en 23,59% op de MSVD, MSRVTT, TGIF en TVQA short video benchmarks. Deze resultaten geven aan dat onze modellen aanzienlijke verbeteringen vertonen in zowel lang als kort videobegrip. Onze modellen en code zijn openbaar beschikbaar gemaakt op https://vision-cair.github.io/Goldfish_website/.
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/