Naar een Video Denktest: Een Holistische Benchmark voor Geavanceerd Video Redeneren en Begrijpen
Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
July 20, 2025
Auteurs: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
cs.AI
Samenvatting
Menselijke intelligentie vereist correctheid en robuustheid, waarbij de eerste de basis vormt voor de laatste. In videobegrip zorgt correctheid voor een nauwkeurige interpretatie van visuele inhoud, en robuustheid behoudt consistente prestaties onder uitdagende omstandigheden. Ondanks vooruitgang in video large language models (video LLM's) weerspiegelen bestaande benchmarks onvoldoende het verschil tussen deze modellen en menselijke intelligentie in het handhaven van correctheid en robuustheid bij video-interpretatie. We introduceren de Video Thinking Test (Video-TT) om te beoordelen of video LLM's real-world video's net zo effectief kunnen interpreteren als mensen. Video-TT weerspiegelt echte hiaten in het begrijpen van complexe visuele verhalen en evalueert robuustheid tegen natuurlijke adversariële vragen. Video-TT bestaat uit 1.000 YouTube Shorts-video's, elk met één open-einde vraag en vier adversariële vragen die visuele en narratieve complexiteit onderzoeken. Onze evaluatie toont een significant verschil tussen de prestaties van video LLM's en die van mensen.
English
Human intelligence requires correctness and robustness, with the former being
foundational for the latter. In video understanding, correctness ensures the
accurate interpretation of visual content, and robustness maintains consistent
performance in challenging conditions. Despite advances in video large language
models (video LLMs), existing benchmarks inadequately reflect the gap between
these models and human intelligence in maintaining correctness and robustness
in video interpretation. We introduce the Video Thinking Test (Video-TT), to
assess if video LLMs can interpret real-world videos as effectively as humans.
Video-TT reflects genuine gaps in understanding complex visual narratives, and
evaluates robustness against natural adversarial questions. Video-TT comprises
1,000 YouTube Shorts videos, each with one open-ended question and four
adversarial questions that probe visual and narrative complexity. Our
evaluation shows a significant gap between video LLMs and human performance.