TOMATE: Evaluación de las Capacidades de Razonamiento Temporal Visual en Modelos Fundamentales Multimodales
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models
October 30, 2024
Autores: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan
cs.AI
Resumen
Los benchmarks existentes a menudo resaltan el notable rendimiento logrado por los Modelos Fundamentales Multimodales (MFM, por sus siglas en inglés) de última generación en aprovechar el contexto temporal para la comprensión de videos. Sin embargo, ¿qué tan bien realizan realmente los modelos el razonamiento temporal visual? Nuestro estudio de los benchmarks existentes muestra que esta capacidad de los MFM probablemente está sobreestimada, ya que muchas preguntas pueden resolverse utilizando uno, unos pocos o cuadros fuera de orden. Para examinar sistemáticamente las tareas actuales de razonamiento temporal visual, proponemos tres principios con métricas correspondientes: (1) Ganancia Multi-Cuadro, (2) Sensibilidad al Orden de Cuadros y (3) Disparidad de Información de Cuadros. Siguiendo estos principios, presentamos TOMATO, Evaluación Multimodal de Razonamiento Temporal, un nuevo benchmark diseñado para evaluar rigurosamente las capacidades de razonamiento temporal de los MFM en la comprensión de videos. TOMATO consta de 1,484 preguntas cuidadosamente seleccionadas y anotadas por humanos que abarcan seis tareas (es decir, conteo de acciones, dirección, rotación, forma y tendencia, velocidad y frecuencia, y pistas visuales), aplicadas a 1,417 videos, que incluyen 805 videos auto-grabados y generados, que abarcan escenarios centrados en humanos, del mundo real y simulados. Nuestra evaluación exhaustiva revela una brecha de rendimiento humano-modelo del 57.3% con el modelo de mejor rendimiento. Además, nuestro análisis en profundidad revela limitaciones más fundamentales más allá de esta brecha en los MFM actuales. Si bien pueden reconocer eventos con precisión en cuadros aislados, fallan en interpretar estos cuadros como una secuencia continua. Creemos que TOMATO servirá como un banco de pruebas crucial para evaluar los MFM de próxima generación y como un llamado a la comunidad para desarrollar sistemas de IA capaces de comprender la dinámica del mundo humano a través de la modalidad de video.
English
Existing benchmarks often highlight the remarkable performance achieved by
state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal
context for video understanding. However, how well do the models truly perform
visual temporal reasoning? Our study of existing benchmarks shows that this
capability of MFMs is likely overestimated as many questions can be solved by
using a single, few, or out-of-order frames. To systematically examine current
visual temporal reasoning tasks, we propose three principles with corresponding
metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame
Information Disparity. Following these principles, we introduce TOMATO,
Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to
rigorously assess MFMs' temporal reasoning capabilities in video understanding.
TOMATO comprises 1,484 carefully curated, human-annotated questions spanning
six tasks (i.e., action count, direction, rotation, shape & trend, velocity &
frequency, and visual cues), applied to 1,417 videos, including 805
self-recorded and -generated videos, that encompass human-centric, real-world,
and simulated scenarios. Our comprehensive evaluation reveals a human-model
performance gap of 57.3% with the best-performing model. Moreover, our in-depth
analysis uncovers more fundamental limitations beyond this gap in current MFMs.
While they can accurately recognize events in isolated frames, they fail to
interpret these frames as a continuous sequence. We believe TOMATO will serve
as a crucial testbed for evaluating the next-generation MFMs and as a call to
the community to develop AI systems capable of comprehending human world
dynamics through the video modality.Summary
AI-Generated Summary