ChatPaper.aiChatPaper

Em Direção ao Teste de Pensamento em Vídeo: Um Benchmark Holístico para Raciocínio e Compreensão Avançada de Vídeo

Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding

July 20, 2025
Autores: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
cs.AI

Resumo

A inteligência humana requer correção e robustez, sendo a primeira fundamental para a segunda. Na compreensão de vídeos, a correção garante a interpretação precisa do conteúdo visual, enquanto a robustez mantém um desempenho consistente em condições desafiadoras. Apesar dos avanços nos modelos de linguagem de grande escala para vídeos (video LLMs), os benchmarks existentes não refletem adequadamente a lacuna entre esses modelos e a inteligência humana na manutenção da correção e robustez na interpretação de vídeos. Apresentamos o Teste de Pensamento em Vídeo (Video-TT), para avaliar se os video LLMs podem interpretar vídeos do mundo real com a mesma eficácia que os humanos. O Video-TT reflete lacunas genuínas na compreensão de narrativas visuais complexas e avalia a robustez contra perguntas adversariais naturais. O Video-TT é composto por 1.000 vídeos do YouTube Shorts, cada um com uma pergunta aberta e quatro perguntas adversariais que exploram a complexidade visual e narrativa. Nossa avaliação mostra uma lacuna significativa entre o desempenho dos video LLMs e o desempenho humano.
English
Human intelligence requires correctness and robustness, with the former being foundational for the latter. In video understanding, correctness ensures the accurate interpretation of visual content, and robustness maintains consistent performance in challenging conditions. Despite advances in video large language models (video LLMs), existing benchmarks inadequately reflect the gap between these models and human intelligence in maintaining correctness and robustness in video interpretation. We introduce the Video Thinking Test (Video-TT), to assess if video LLMs can interpret real-world videos as effectively as humans. Video-TT reflects genuine gaps in understanding complex visual narratives, and evaluates robustness against natural adversarial questions. Video-TT comprises 1,000 YouTube Shorts videos, each with one open-ended question and four adversarial questions that probe visual and narrative complexity. Our evaluation shows a significant gap between video LLMs and human performance.
PDF201July 22, 2025