Goldfisch: Vision-Sprachverständnis von beliebig langen Videos
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
July 17, 2024
Autoren: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny
cs.AI
Zusammenfassung
Die meisten aktuellen LLM-basierten Modelle für die Videoanalyse können Videos innerhalb von Minuten verarbeiten. Sie haben jedoch Schwierigkeiten mit langen Videos aufgrund von Herausforderungen wie "Rauschen und Redundanz" sowie "Speicher- und Rechenbeschränkungen". In diesem Artikel stellen wir Goldfish vor, eine Methode, die speziell für das Verstehen von Videos beliebiger Längen entwickelt wurde. Wir führen auch den TVQA-long Benchmark ein, der speziell darauf ausgelegt ist, die Fähigkeiten von Modellen bei der Analyse langer Videos mit Fragen zu Inhalten in Bild und Text zu bewerten. Goldfish begegnet diesen Herausforderungen mit einem effizienten Abrufmechanismus, der zunächst die relevantesten k Videoausschnitte gemäß den Anweisungen sammelt, bevor er die gewünschte Antwort liefert. Diese Gestaltung des Abrufmechanismus ermöglicht es Goldfish, beliebig lange Videosequenzen effizient zu verarbeiten und erleichtert so seine Anwendung in Kontexten wie Filmen oder Fernsehserien. Zur Unterstützung des Abrufprozesses haben wir MiniGPT4-Video entwickelt, das detaillierte Beschreibungen für die Videoausschnitte generiert. Um dem Mangel an Benchmarks für die Bewertung langer Videos entgegenzuwirken, haben wir den TVQA short video Benchmark für eine erweiterte Inhaltsanalyse angepasst, indem wir Fragen aus ganzen Episoden aggregiert haben, wodurch die Bewertung von teilweisem auf vollständiges Episodenverständnis umgestellt wurde. Wir erzielten eine Genauigkeitsrate von 41,78% auf dem TVQA-long Benchmark und übertrafen damit frühere Methoden um 14,94%. Unser MiniGPT4-Video zeigt auch eine außergewöhnliche Leistung bei der Analyse von kurzen Videos und übertrifft bestehende State-of-the-Art-Methoden um 3,23%, 2,03%, 16,5% und 23,59% auf den MSVD, MSRVTT, TGIF und TVQA short video Benchmarks. Diese Ergebnisse deuten darauf hin, dass unsere Modelle signifikante Verbesserungen sowohl im Verständnis von langen als auch von kurzen Videos aufweisen. Unsere Modelle und der Code sind öffentlich verfügbar unter https://vision-cair.github.io/Goldfish_website/
English
Most current LLM-based models for video understanding can process videos
within minutes. However, they struggle with lengthy videos due to challenges
such as "noise and redundancy", as well as "memory and computation"
constraints. In this paper, we present Goldfish, a methodology tailored for
comprehending videos of arbitrary lengths. We also introduce the TVQA-long
benchmark, specifically designed to evaluate models' capabilities in
understanding long videos with questions in both vision and text content.
Goldfish approaches these challenges with an efficient retrieval mechanism that
initially gathers the top-k video clips relevant to the instruction before
proceeding to provide the desired response. This design of the retrieval
mechanism enables the Goldfish to efficiently process arbitrarily long video
sequences, facilitating its application in contexts such as movies or
television series. To facilitate the retrieval process, we developed
MiniGPT4-Video that generates detailed descriptions for the video clips. In
addressing the scarcity of benchmarks for long video evaluation, we adapted the
TVQA short video benchmark for extended content analysis by aggregating
questions from entire episodes, thereby shifting the evaluation from partial to
full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long
benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows
exceptional performance in short video comprehension, exceeding existing
state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT,
TGIF, and TVQA short video benchmarks, respectively. These results indicate
that our models have significant improvements in both long and short-video
understanding. Our models and code have been made publicly available at
https://vision-cair.github.io/Goldfish_website/Summary
AI-Generated Summary