Vers un test de pensée vidéo : un benchmark holistique pour le raisonnement et la compréhension avancée des vidéos
Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
July 20, 2025
papers.authors: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
cs.AI
papers.abstract
L'intelligence humaine nécessite à la fois exactitude et robustesse, la première étant fondamentale pour la seconde. Dans la compréhension vidéo, l'exactitude garantit une interprétation précise du contenu visuel, tandis que la robustesse maintient des performances constantes dans des conditions difficiles. Malgré les avancées des modèles de langage de grande taille pour la vidéo (video LLMs), les benchmarks existants ne reflètent pas adéquatement l'écart entre ces modèles et l'intelligence humaine en matière de maintien de l'exactitude et de la robustesse dans l'interprétation vidéo. Nous introduisons le Test de Pensée Vidéo (Video-TT) pour évaluer si les video LLMs peuvent interpréter les vidéos du monde réel aussi efficacement que les humains. Video-TT met en lumière des lacunes réelles dans la compréhension des récits visuels complexes et évalue la robustesse face à des questions adverses naturelles. Video-TT comprend 1 000 vidéos YouTube Shorts, chacune accompagnée d'une question ouverte et de quatre questions adverses qui explorent la complexité visuelle et narrative. Notre évaluation révèle un écart significatif entre les performances des video LLMs et celles des humains.
English
Human intelligence requires correctness and robustness, with the former being
foundational for the latter. In video understanding, correctness ensures the
accurate interpretation of visual content, and robustness maintains consistent
performance in challenging conditions. Despite advances in video large language
models (video LLMs), existing benchmarks inadequately reflect the gap between
these models and human intelligence in maintaining correctness and robustness
in video interpretation. We introduce the Video Thinking Test (Video-TT), to
assess if video LLMs can interpret real-world videos as effectively as humans.
Video-TT reflects genuine gaps in understanding complex visual narratives, and
evaluates robustness against natural adversarial questions. Video-TT comprises
1,000 YouTube Shorts videos, each with one open-ended question and four
adversarial questions that probe visual and narrative complexity. Our
evaluation shows a significant gap between video LLMs and human performance.