ChatPaper.aiChatPaper

TemporalBench: Evaluación comparativa de la comprensión temporal detallada para modelos de video multimodales

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

October 14, 2024
Autores: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI

Resumen

Comprender la dinámica temporal detallada es crucial para la comprensión y generación de videos multimodales. Debido a la falta de anotaciones temporales detalladas, los benchmarks de video existentes se asemejan principalmente a benchmarks de imágenes estáticas y son inadecuados para evaluar modelos de comprensión temporal. En este artículo, presentamos TemporalBench, un nuevo benchmark dedicado a evaluar la comprensión temporal detallada en videos. TemporalBench consta de ~10K pares de preguntas y respuestas de video, derivados de ~2K anotaciones humanas de alta calidad que detallan la dinámica temporal en clips de video. Como resultado, nuestro benchmark proporciona un banco de pruebas único para evaluar diversas habilidades de comprensión y razonamiento temporal, como la frecuencia de acciones, la magnitud del movimiento, el orden de eventos, etc. Además, permite evaluaciones en diversas tareas como responder preguntas de video y subtitulado, comprensión de videos cortos y largos, así como diferentes modelos como modelos de incrustación de video multimodal y modelos de generación de texto. Los resultados muestran que modelos de vanguardia como GPT-4o solo logran una precisión de respuesta a preguntas del 38.5% en TemporalBench, demostrando una brecha significativa (~30%) entre humanos y la IA en la comprensión temporal. Además, observamos una falla crítica para las preguntas de opción múltiple donde los LLM pueden detectar los cambios sutiles en leyendas negativas y encontrar una descripción centralizada como una pista para su predicción, donde proponemos la Precisión Binaria Múltiple (MBA) para corregir dicho sesgo. Esperamos que TemporalBench fomente la investigación sobre la mejora de las capacidades de razonamiento temporal de los modelos. Tanto el conjunto de datos como el código de evaluación estarán disponibles.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for temporal understanding. In this paper, we introduce TemporalBench, a new benchmark dedicated to evaluating fine-grained temporal understanding in videos. TemporalBench consists of ~10K video question-answer pairs, derived from ~2K high-quality human annotations detailing the temporal dynamics in video clips. As a result, our benchmark provides a unique testbed for evaluating various temporal understanding and reasoning abilities such as action frequency, motion magnitude, event order, etc. Moreover, it enables evaluations on various tasks like both video question answering and captioning, both short and long video understanding, as well as different models such as multimodal video embedding models and text generation models. Results show that state-of-the-art models like GPT-4o achieve only 38.5% question answering accuracy on TemporalBench, demonstrating a significant gap (~30%) between humans and AI in temporal understanding. Furthermore, we notice a critical pitfall for multi-choice QA where LLMs can detect the subtle changes in negative captions and find a centralized description as a cue for its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such bias. We hope that TemporalBench can foster research on improving models' temporal reasoning capabilities. Both dataset and evaluation code will be made available.

Summary

AI-Generated Summary

PDF172November 16, 2024