TemporalBench: Оценка мелкозернистого временного понимания для мультимодельных видеомоделей
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
Авторы: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
Аннотация
Понимание тонких временных динамик крайне важно для мультимодального понимания и генерации видео. Из-за отсутствия детализированных временных аннотаций существующие видео-бенчмарки в основном напоминают бенчмарки статических изображений и неспособны оценить модели на понимание времени. В данной статье мы представляем TemporalBench, новый бенчмарк, посвященный оценке тонкого понимания времени в видео. TemporalBench состоит из ~10K пар вопрос-ответ к видео, полученных из ~2K высококачественных человеческих аннотаций, описывающих временные динамики в видеороликах. Таким образом, наш бенчмарк предоставляет уникальную площадку для оценки различных способностей к пониманию и рассуждению о времени, таких как частота действий, величина движения, порядок событий и т. д. Более того, он позволяет проводить оценку на различных задачах, таких как ответы на вопросы к видео и создание подписей, понимание как коротких, так и длинных видео, а также различные модели, такие как мультимодальные модели встраивания видео и модели генерации текста. Результаты показывают, что передовые модели, такие как GPT-4o, достигают лишь 38.5% точности ответов на вопросы на TemporalBench, демонстрируя значительный разрыв (~30%) между людьми и ИИ в понимании времени. Кроме того, мы замечаем критическую проблему для множественного выбора в QA, где LLM могут обнаруживать тонкие изменения в отрицательных подписях и находить централизованное описание в качестве подсказки для своего предсказания, поэтому мы предлагаем Multiple Binary Accuracy (MBA) для исправления такого смещения. Мы надеемся, что TemporalBench сможет способствовать исследованиям по улучшению способностей моделей к временному рассуждению. Как набор данных, так и код оценки будут доступны.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary