TemporalBench: Benchmarking van fijnmazig temporeel begrip voor multimodale videomodellen
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
Auteurs: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
Samenvatting
Het begrijpen van fijnmazige temporele dynamiek is cruciaal voor multimodale videobegrip en -generatie. Vanwege het gebrek aan fijnmazige temporele annotaties lijken bestaande videobenchmarks voornamelijk op statische beeldbenchmarks en zijn ze niet competent om modellen voor temporeel begrip te evalueren. In dit artikel introduceren we TemporalBench, een nieuwe benchmark die is gewijd aan het evalueren van fijnmazig temporeel begrip in video's. TemporalBench bestaat uit ~10K video vraag-antwoordparen, afgeleid van ~2K hoogwaardige menselijke annotaties die de temporele dynamiek in videoclips beschrijven. Als gevolg hiervan biedt onze benchmark een uniek testplatform voor het evalueren van verschillende temporele begrips- en redeneervaardigheden zoals actiefrequentie, bewegingsmagnitude, gebeurtenisvolgorde, enz. Bovendien maakt het evaluaties mogelijk voor verschillende taken zoals zowel video-vraagbeantwoording als bijschriften, zowel begrip van korte als lange video's, evenals verschillende modellen zoals multimodale video-embeddingmodellen en tekstgeneratiemodellen. Resultaten tonen aan dat state-of-the-art modellen zoals GPT-4o slechts 38,5% nauwkeurigheid behalen bij het beantwoorden van vragen op TemporalBench, wat een aanzienlijk verschil (~30%) aantoont tussen mensen en AI in temporeel begrip. Bovendien merken we een kritisch struikelblok op voor meerkeuzevragen waarbij LLM's de subtiele veranderingen in negatieve bijschriften kunnen detecteren en een gecentraliseerde beschrijving als aanwijzing voor hun voorspelling kunnen gebruiken, waarbij we Multiple Binary Accuracy (MBA) voorstellen om een dergelijke vooringenomenheid te corrigeren. We hopen dat TemporalBench onderzoek kan stimuleren naar het verbeteren van de temporele redeneervaardigheden van modellen. Zowel de dataset als de evaluatiecode zullen beschikbaar worden gesteld.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary