Goldfish: Comprensione Visione-Linguaggio di Video di Lunghezza Arbitraria
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
Autori: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
Abstract
La maggior parte dei modelli attuali basati su LLM per la comprensione video è in grado di elaborare video in pochi minuti. Tuttavia, questi modelli incontrano difficoltà con video di lunga durata a causa di sfide come "rumore e ridondanza", nonché vincoli di "memoria e calcolo". In questo articolo, presentiamo Goldfish, una metodologia progettata specificamente per comprendere video di lunghezza arbitraria. Introduciamo inoltre il benchmark TVQA-long, concepito appositamente per valutare le capacità dei modelli nella comprensione di video lunghi con domande relative sia al contenuto visivo che testuale. Goldfish affronta queste sfide con un meccanismo di recupero efficiente che raccoglie inizialmente i top-k clip video rilevanti per l'istruzione prima di procedere a fornire la risposta desiderata. Questo design del meccanismo di recupero consente a Goldfish di elaborare in modo efficiente sequenze video di lunghezza arbitraria, facilitando la sua applicazione in contesti come film o serie televisive. Per agevolare il processo di recupero, abbiamo sviluppato MiniGPT4-Video, che genera descrizioni dettagliate per i clip video. Per affrontare la carenza di benchmark per la valutazione di video lunghi, abbiamo adattato il benchmark TVQA per video brevi all'analisi di contenuti estesi, aggregando domande provenienti da interi episodi, spostando così la valutazione dalla comprensione parziale a quella completa dell'episodio. Abbiamo raggiunto un tasso di accuratezza del 41,78% sul benchmark TVQA-long, superando i metodi precedenti del 14,94%. Il nostro MiniGPT4-Video mostra anche prestazioni eccezionali nella comprensione di video brevi, superando i metodi state-of-the-art esistenti rispettivamente del 3,23%, 2,03%, 16,5% e 23,59% sui benchmark MSVD, MSRVTT, TGIF e TVQA per video brevi. Questi risultati indicano che i nostri modelli hanno miglioramenti significativi sia nella comprensione di video lunghi che brevi. I nostri modelli e il codice sono stati resi pubblicamente disponibili all'indirizzo https://vision-cair.github.io/Goldfish_website/.
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/