TemporalBench: Benchmarking des feingranularen zeitlichen Verständnisses für multimodale Video-Modelle
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
Autoren: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
Zusammenfassung
Das Verständnis feingranularer zeitlicher Dynamiken ist entscheidend für die multimodale Videoverarbeitung und -erzeugung. Aufgrund des Mangels an feingranularen zeitlichen Annotationen ähneln bestehende Videobenchmarks größtenteils statischen Bildbenchmarks und sind ungeeignet zur Bewertung von Modellen für zeitliches Verständnis. In diesem Artikel stellen wir TemporalBench vor, einen neuen Benchmark, der sich der Bewertung des feingranularen zeitlichen Verständnisses in Videos widmet. TemporalBench besteht aus ca. 10.000 Video-Frage-Antwort-Paaren, abgeleitet von ca. 2.000 hochwertigen menschlichen Annotationen, die die zeitliche Dynamik in Videoclips detailliert beschreiben. Als Ergebnis bietet unser Benchmark ein einzigartiges Testumfeld zur Bewertung verschiedener zeitlicher Verständnis- und Denkfähigkeiten wie Aktionsfrequenz, Bewegungsmagnitude, Ereignisreihenfolge usw. Darüber hinaus ermöglicht es Bewertungen in verschiedenen Aufgaben wie Video-Frage-Antwort und -Beschriftung, Verständnis kurzer und langer Videos sowie verschiedener Modelle wie multimodale Videoeinbettungsmodelle und Textgenerierungsmodelle. Die Ergebnisse zeigen, dass modernste Modelle wie GPT-4o nur eine Frage-Antwort-Genauigkeit von 38,5% auf TemporalBench erreichen, was eine signifikante Lücke (~30%) zwischen Menschen und KI im zeitlichen Verständnis aufzeigt. Darüber hinaus stellen wir ein kritisches Problem bei Mehrfachauswahl-F&A fest, bei dem LLMs die subtilen Änderungen in negativen Beschriftungen erkennen und eine zentrale Beschreibung als Hinweis für ihre Vorhersage finden können, wobei wir Multiple Binary Accuracy (MBA) vorschlagen, um solche Verzerrungen zu korrigieren. Wir hoffen, dass TemporalBench die Forschung zur Verbesserung der zeitlichen Denkfähigkeiten von Modellen fördern kann. Sowohl Datensatz als auch Bewertungscode werden verfügbar gemacht.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary