TemporalBench: Valutazione delle capacità di comprensione temporale dettagliata per i modelli video multimodali
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
Autori: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
Abstract
Comprendere le dinamiche temporali dettagliate è cruciale per la comprensione e la generazione di video multimodali. A causa della mancanza di annotazioni temporali dettagliate, i benchmark video esistenti assomigliano principalmente ai benchmark di immagini statiche e non sono in grado di valutare in modo adeguato i modelli per la comprensione temporale. In questo articolo, presentiamo TemporalBench, un nuovo benchmark dedicato alla valutazione della comprensione temporale dettagliata nei video. TemporalBench è composto da circa 10.000 coppie domanda-risposta video, derivate da circa 2.000 annotazioni umane di alta qualità che dettagliano le dinamiche temporali nei video. Di conseguenza, il nostro benchmark fornisce un banco di prova unico per valutare varie abilità di comprensione e ragionamento temporale come la frequenza delle azioni, l'entità del movimento, l'ordine degli eventi, ecc. Inoltre, consente valutazioni su varie attività come la risposta alle domande sui video e la sottotitolazione, la comprensione di video brevi e lunghi, nonché diversi modelli come i modelli di incorporamento video multimodali e i modelli di generazione di testo. I risultati mostrano che i modelli all'avanguardia come GPT-4o raggiungono solo il 38,5% di accuratezza nella risposta alle domande su TemporalBench, dimostrando un divario significativo (~30%) tra gli esseri umani e l'IA nella comprensione temporale. Inoltre, notiamo una falla critica per le domande a risposta multipla in cui i LLM possono rilevare i cambiamenti sottili nelle didascalie negative e trovare una descrizione centralizzata come suggerimento per la previsione, dove proponiamo l'Accuratezza Binaria Multipla (MBA) per correggere tale distorsione. Speriamo che TemporalBench possa promuovere la ricerca sull'ottimizzazione delle capacità di ragionamento temporale dei modelli. Sia il set di dati che il codice di valutazione saranno resi disponibili.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary