ChatPaper.aiChatPaper

Vinoground: Examinando los LMMs en relación con el Razonamiento Temporal Denso en Videos Cortos

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

October 3, 2024
Autores: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI

Resumen

Recientemente ha surgido un sentimiento creciente de que los modernos modelos grandes multimodales (LMMs) han abordado la mayoría de los desafíos clave relacionados con la comprensión de videos cortos. Como resultado, tanto la academia como la industria están desplazando gradualmente su atención hacia los desafíos más complejos planteados por la comprensión de videos de larga duración. Sin embargo, ¿es esto realmente así? Nuestros estudios indican que los LMMs todavía carecen de muchas capacidades de razonamiento fundamentales incluso al tratar con videos cortos. Presentamos Vinoground, un banco de pruebas de evaluación LMM contrafactual temporal que abarca 1000 pares de videos cortos y subtítulos naturales. Demostramos que los LMMs existentes luchan severamente por distinguir las diferencias temporales entre diferentes acciones y transformaciones de objetos. Por ejemplo, el mejor modelo GPT-4o solo obtiene ~50% en nuestros puntajes de texto y video, mostrando una gran brecha en comparación con la línea base humana de ~90%. Todos los modelos multimodales de código abierto y los modelos basados en CLIP tienen un rendimiento mucho peor, produciendo principalmente un rendimiento aleatorio. A través de este trabajo, arrojamos luz sobre el hecho de que el razonamiento temporal en videos cortos es un problema que aún no se ha resuelto por completo. El conjunto de datos y el código de evaluación están disponibles en https://vinoground.github.io.
English
There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

Summary

AI-Generated Summary

PDF72November 16, 2024