Hacia la Prueba de Pensamiento en Video: Un Punto de Referencia Integral para el Razonamiento y Comprensión Avanzada de Videos

Resumen

La inteligencia humana requiere corrección y robustez, siendo la primera fundamental para la segunda. En la comprensión de videos, la corrección garantiza la interpretación precisa del contenido visual, mientras que la robustez mantiene un rendimiento consistente en condiciones desafiantes. A pesar de los avances en los modelos de lenguaje de gran escala para video (video LLMs), los benchmarks existentes no reflejan adecuadamente la brecha entre estos modelos y la inteligencia humana en cuanto a mantener la corrección y la robustez en la interpretación de videos. Presentamos la Prueba de Pensamiento en Video (Video-TT), diseñada para evaluar si los video LLMs pueden interpretar videos del mundo real con la misma eficacia que los humanos. Video-TT refleja brechas genuinas en la comprensión de narrativas visuales complejas y evalúa la robustez frente a preguntas adversarias naturales. Video-TT consta de 1,000 videos de YouTube Shorts, cada uno con una pregunta abierta y cuatro preguntas adversarias que exploran la complejidad visual y narrativa. Nuestra evaluación muestra una brecha significativa entre el rendimiento de los video LLMs y el de los humanos.

English

Human intelligence requires correctness and robustness, with the former being foundational for the latter. In video understanding, correctness ensures the accurate interpretation of visual content, and robustness maintains consistent performance in challenging conditions. Despite advances in video large language models (video LLMs), existing benchmarks inadequately reflect the gap between these models and human intelligence in maintaining correctness and robustness in video interpretation. We introduce the Video Thinking Test (Video-TT), to assess if video LLMs can interpret real-world videos as effectively as humans. Video-TT reflects genuine gaps in understanding complex visual narratives, and evaluates robustness against natural adversarial questions. Video-TT comprises 1,000 YouTube Shorts videos, each with one open-ended question and four adversarial questions that probe visual and narrative complexity. Our evaluation shows a significant gap between video LLMs and human performance.

Hacia la Prueba de Pensamiento en Video: Un Punto de Referencia Integral para el Razonamiento y Comprensión Avanzada de Videos

Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding

Resumen

Support