TemporalBench: Avaliação de Referência para Compreensão Temporal Detalhada em Modelos de Vídeo Multimodais
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
October 14, 2024
Autores: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
cs.AI
Resumo
Compreender a dinâmica temporal refinada é crucial para a compreensão e geração de vídeos multimodais. Devido à falta de anotações temporais refinadas, os benchmarks de vídeo existentes se assemelham principalmente aos benchmarks de imagens estáticas e são inadequados para avaliar modelos de compreensão temporal. Neste artigo, apresentamos o TemporalBench, um novo benchmark dedicado a avaliar a compreensão temporal refinada em vídeos. O TemporalBench é composto por ~10 mil pares de perguntas e respostas em vídeo, derivados de ~2 mil anotações humanas de alta qualidade detalhando a dinâmica temporal em clipes de vídeo. Como resultado, nosso benchmark fornece um ambiente de teste único para avaliar várias habilidades de compreensão e raciocínio temporal, como frequência de ação, magnitude de movimento, ordem de eventos, etc. Além disso, ele possibilita avaliações em várias tarefas, como responder a perguntas em vídeo e legendagem, compreensão de vídeos curtos e longos, bem como diferentes modelos, como modelos de incorporação multimodal de vídeo e modelos de geração de texto. Os resultados mostram que modelos de ponta como o GPT-4o alcançam apenas 38,5% de precisão na resposta a perguntas no TemporalBench, demonstrando uma lacuna significativa (~30%) entre humanos e IA na compreensão temporal. Além disso, observamos uma armadilha crítica para QA de múltipla escolha, onde LLMs podem detectar as mudanças sutis em legendas negativas e encontrar uma descrição centralizada como pista para sua previsão, onde propomos a Acurácia Binária Múltipla (MBA) para corrigir tal viés. Esperamos que o TemporalBench possa promover a pesquisa na melhoria das capacidades de raciocínio temporal dos modelos. Tanto o conjunto de dados quanto o código de avaliação estarão disponíveis.
English
Understanding fine-grained temporal dynamics is crucial for multimodal video
comprehension and generation. Due to the lack of fine-grained temporal
annotations, existing video benchmarks mostly resemble static image benchmarks
and are incompetent at evaluating models for temporal understanding. In this
paper, we introduce TemporalBench, a new benchmark dedicated to evaluating
fine-grained temporal understanding in videos. TemporalBench consists of ~10K
video question-answer pairs, derived from ~2K high-quality human annotations
detailing the temporal dynamics in video clips. As a result, our benchmark
provides a unique testbed for evaluating various temporal understanding and
reasoning abilities such as action frequency, motion magnitude, event order,
etc. Moreover, it enables evaluations on various tasks like both video question
answering and captioning, both short and long video understanding, as well as
different models such as multimodal video embedding models and text generation
models. Results show that state-of-the-art models like GPT-4o achieve only
38.5% question answering accuracy on TemporalBench, demonstrating a significant
gap (~30%) between humans and AI in temporal understanding. Furthermore, we
notice a critical pitfall for multi-choice QA where LLMs can detect the subtle
changes in negative captions and find a centralized description as a cue for
its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such
bias. We hope that TemporalBench can foster research on improving models'
temporal reasoning capabilities. Both dataset and evaluation code will be made
available.Summary
AI-Generated Summary