Hacia la Prueba de Pensamiento en Video: Un Punto de Referencia Integral para el Razonamiento y Comprensión Avanzada de Videos
Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
July 20, 2025
Autores: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
cs.AI
Resumen
La inteligencia humana requiere corrección y robustez, siendo la primera fundamental para la segunda. En la comprensión de videos, la corrección garantiza la interpretación precisa del contenido visual, mientras que la robustez mantiene un rendimiento consistente en condiciones desafiantes. A pesar de los avances en los modelos de lenguaje de gran escala para video (video LLMs), los benchmarks existentes no reflejan adecuadamente la brecha entre estos modelos y la inteligencia humana en cuanto a mantener la corrección y la robustez en la interpretación de videos. Presentamos la Prueba de Pensamiento en Video (Video-TT), diseñada para evaluar si los video LLMs pueden interpretar videos del mundo real con la misma eficacia que los humanos. Video-TT refleja brechas genuinas en la comprensión de narrativas visuales complejas y evalúa la robustez frente a preguntas adversarias naturales. Video-TT consta de 1,000 videos de YouTube Shorts, cada uno con una pregunta abierta y cuatro preguntas adversarias que exploran la complejidad visual y narrativa. Nuestra evaluación muestra una brecha significativa entre el rendimiento de los video LLMs y el de los humanos.
English
Human intelligence requires correctness and robustness, with the former being
foundational for the latter. In video understanding, correctness ensures the
accurate interpretation of visual content, and robustness maintains consistent
performance in challenging conditions. Despite advances in video large language
models (video LLMs), existing benchmarks inadequately reflect the gap between
these models and human intelligence in maintaining correctness and robustness
in video interpretation. We introduce the Video Thinking Test (Video-TT), to
assess if video LLMs can interpret real-world videos as effectively as humans.
Video-TT reflects genuine gaps in understanding complex visual narratives, and
evaluates robustness against natural adversarial questions. Video-TT comprises
1,000 YouTube Shorts videos, each with one open-ended question and four
adversarial questions that probe visual and narrative complexity. Our
evaluation shows a significant gap between video LLMs and human performance.