TemporalBench : Évaluation de la compréhension temporelle fine pour les modèles vidéo multimodaux
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
Auteurs: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
Résumé
La compréhension des dynamiques temporelles fines est cruciale pour la compréhension et la génération vidéo multimodales. En raison du manque d'annotations temporelles fines, les benchmarks vidéo existants ressemblent principalement à des benchmarks d'images statiques et sont inaptes à évaluer les modèles pour la compréhension temporelle. Dans cet article, nous introduisons TemporalBench, un nouveau benchmark dédié à l'évaluation de la compréhension temporelle fine dans les vidéos. TemporalBench se compose d'environ 10 000 paires question-réponse vidéo, dérivées d'environ 2 000 annotations humaines de haute qualité détaillant les dynamiques temporelles dans les clips vidéo. En conséquence, notre benchmark fournit une plateforme de test unique pour évaluer diverses capacités de compréhension et de raisonnement temporels telles que la fréquence des actions, l'amplitude du mouvement, l'ordre des événements, etc. De plus, il permet des évaluations sur diverses tâches telles que la réponse aux questions vidéo et la légende, la compréhension de vidéos courtes et longues, ainsi que différents modèles tels que les modèles d'incorporation vidéo multimodaux et les modèles de génération de texte. Les résultats montrent que des modèles de pointe comme GPT-4o n'atteignent qu'une précision de réponse aux questions de 38,5% sur TemporalBench, démontrant un écart significatif (~30%) entre les humains et l'IA en matière de compréhension temporelle. De plus, nous remarquons une faille critique pour les questions à choix multiples où les LLM peuvent détecter les changements subtils dans les légendes négatives et trouver une description centralisée comme indice pour leur prédiction, où nous proposons l'Exactitude Binaire Multiple (MBA) pour corriger un tel biais. Nous espérons que TemporalBench encouragera la recherche sur l'amélioration des capacités de raisonnement temporel des modèles. À la fois l'ensemble de données et le code d'évaluation seront rendus disponibles.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary