TVBench: Neugestaltung der Bewertung von Video-Sprache
TVBench: Redesigning Video-Language Evaluation
October 10, 2024
papers.authors: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI
papers.abstract
Große Sprachmodelle haben beeindruckende Leistungen gezeigt, wenn sie mit Bildmodellen integriert werden, was sogar das Verstehen von Videos ermöglicht. Die Evaluierung dieser Videomodelle stellt jedoch eigene einzigartige Herausforderungen dar, für die mehrere Benchmarks vorgeschlagen wurden. In diesem Paper zeigen wir, dass die derzeit am häufigsten verwendeten Video-Sprach-Benchmarks gelöst werden können, ohne dass viel zeitliches Denken erforderlich ist. Wir haben drei Hauptprobleme in bestehenden Datensätzen identifiziert: (i) Statische Informationen aus einzelnen Frames sind oft ausreichend, um die Aufgaben zu lösen. (ii) Der Text der Fragen und der vorgeschlagenen Antworten ist übermäßig informativ, was es den Modellen ermöglicht, korrekt zu antworten, ohne auf visuelle Eingaben angewiesen zu sein. (iii) Alleiniges Weltwissen kann viele der Fragen beantworten, was die Benchmarks zu einem Test der Wissensreplikation anstelle des visuellen Denkens macht. Darüber hinaus stellten wir fest, dass offene Frage-Antwort-Benchmarks für das Verstehen von Videos ähnliche Probleme aufweisen, während der automatische Evaluierungsprozess mit großen Sprachmodellen unzuverlässig ist und daher keine geeignete Alternative darstellt. Als Lösung schlagen wir TVBench vor, einen neuartigen Open-Source-Video-Multiple-Choice-Frage-Antwort-Benchmark, und zeigen durch umfangreiche Evaluationen, dass er ein hohes Maß an zeitlichem Verständnis erfordert. Überraschenderweise stellen wir fest, dass die meisten aktuellen State-of-the-Art Video-Sprach-Modelle auf TVBench ähnlich wie zufällige Leistungen abschneiden, wobei nur Gemini-Pro und Tarsier dieses Basisniveau deutlich übertreffen.
English
Large language models have demonstrated impressive performance when
integrated with vision models even enabling video understanding. However,
evaluating these video models presents its own unique challenges, for which
several benchmarks have been proposed. In this paper, we show that the
currently most used video-language benchmarks can be solved without requiring
much temporal reasoning. We identified three main issues in existing datasets:
(i) static information from single frames is often sufficient to solve the
tasks (ii) the text of the questions and candidate answers is overly
informative, allowing models to answer correctly without relying on any visual
input (iii) world knowledge alone can answer many of the questions, making the
benchmarks a test of knowledge replication rather than visual reasoning. In
addition, we found that open-ended question-answering benchmarks for video
understanding suffer from similar issues while the automatic evaluation process
with LLMs is unreliable, making it an unsuitable alternative. As a solution, we
propose TVBench, a novel open-source video multiple-choice question-answering
benchmark, and demonstrate through extensive evaluations that it requires a
high level of temporal understanding. Surprisingly, we find that most recent
state-of-the-art video-language models perform similarly to random performance
on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.