ChatPaper.aiChatPaper

Naar een Video Denktest: Een Holistische Benchmark voor Geavanceerd Video Redeneren en Begrijpen

Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding

July 20, 2025
Auteurs: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
cs.AI

Samenvatting

Menselijke intelligentie vereist correctheid en robuustheid, waarbij de eerste de basis vormt voor de laatste. In videobegrip zorgt correctheid voor een nauwkeurige interpretatie van visuele inhoud, en robuustheid behoudt consistente prestaties onder uitdagende omstandigheden. Ondanks vooruitgang in video large language models (video LLM's) weerspiegelen bestaande benchmarks onvoldoende het verschil tussen deze modellen en menselijke intelligentie in het handhaven van correctheid en robuustheid bij video-interpretatie. We introduceren de Video Thinking Test (Video-TT) om te beoordelen of video LLM's real-world video's net zo effectief kunnen interpreteren als mensen. Video-TT weerspiegelt echte hiaten in het begrijpen van complexe visuele verhalen en evalueert robuustheid tegen natuurlijke adversariële vragen. Video-TT bestaat uit 1.000 YouTube Shorts-video's, elk met één open-einde vraag en vier adversariële vragen die visuele en narratieve complexiteit onderzoeken. Onze evaluatie toont een significant verschil tussen de prestaties van video LLM's en die van mensen.
English
Human intelligence requires correctness and robustness, with the former being foundational for the latter. In video understanding, correctness ensures the accurate interpretation of visual content, and robustness maintains consistent performance in challenging conditions. Despite advances in video large language models (video LLMs), existing benchmarks inadequately reflect the gap between these models and human intelligence in maintaining correctness and robustness in video interpretation. We introduce the Video Thinking Test (Video-TT), to assess if video LLMs can interpret real-world videos as effectively as humans. Video-TT reflects genuine gaps in understanding complex visual narratives, and evaluates robustness against natural adversarial questions. Video-TT comprises 1,000 YouTube Shorts videos, each with one open-ended question and four adversarial questions that probe visual and narrative complexity. Our evaluation shows a significant gap between video LLMs and human performance.
PDF211July 22, 2025