Vers un test de pensée vidéo : un benchmark holistique pour le raisonnement et la compréhension avancée des vidéos

papers.abstract

L'intelligence humaine nécessite à la fois exactitude et robustesse, la première étant fondamentale pour la seconde. Dans la compréhension vidéo, l'exactitude garantit une interprétation précise du contenu visuel, tandis que la robustesse maintient des performances constantes dans des conditions difficiles. Malgré les avancées des modèles de langage de grande taille pour la vidéo (video LLMs), les benchmarks existants ne reflètent pas adéquatement l'écart entre ces modèles et l'intelligence humaine en matière de maintien de l'exactitude et de la robustesse dans l'interprétation vidéo. Nous introduisons le Test de Pensée Vidéo (Video-TT) pour évaluer si les video LLMs peuvent interpréter les vidéos du monde réel aussi efficacement que les humains. Video-TT met en lumière des lacunes réelles dans la compréhension des récits visuels complexes et évalue la robustesse face à des questions adverses naturelles. Video-TT comprend 1 000 vidéos YouTube Shorts, chacune accompagnée d'une question ouverte et de quatre questions adverses qui explorent la complexité visuelle et narrative. Notre évaluation révèle un écart significatif entre les performances des video LLMs et celles des humains.

English

Human intelligence requires correctness and robustness, with the former being foundational for the latter. In video understanding, correctness ensures the accurate interpretation of visual content, and robustness maintains consistent performance in challenging conditions. Despite advances in video large language models (video LLMs), existing benchmarks inadequately reflect the gap between these models and human intelligence in maintaining correctness and robustness in video interpretation. We introduce the Video Thinking Test (Video-TT), to assess if video LLMs can interpret real-world videos as effectively as humans. Video-TT reflects genuine gaps in understanding complex visual narratives, and evaluates robustness against natural adversarial questions. Video-TT comprises 1,000 YouTube Shorts videos, each with one open-ended question and four adversarial questions that probe visual and narrative complexity. Our evaluation shows a significant gap between video LLMs and human performance.

Vers un test de pensée vidéo : un benchmark holistique pour le raisonnement et la compréhension avancée des vidéos

Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding

papers.abstract

Support