비디오 사고 테스트를 향하여: 고급 비디오 추론 및 이해를 위한 종합적 벤치마크
Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
July 20, 2025
저자: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu
cs.AI
초록
인간의 지능은 정확성과 견고성을 요구하며, 전자는 후자의 기반이 됩니다. 비디오 이해에서 정확성은 시각적 콘텐츠의 정확한 해석을 보장하고, 견고성은 어려운 조건에서도 일관된 성능을 유지합니다. 비디오 대형 언어 모델(video LLMs)의 발전에도 불구하고, 기존 벤치마크는 비디오 해석에서 이러한 모델과 인간 지능 간의 정확성과 견고성 유지 차이를 충분히 반영하지 못합니다. 우리는 비디오 LLM이 실제 비디오를 인간만큼 효과적으로 해석할 수 있는지 평가하기 위해 비디오 사고 테스트(Video-TT)를 소개합니다. Video-TT는 복잡한 시각적 내러티브 이해에서의 진정한 격차를 반영하며, 자연스러운 적대적 질문에 대한 견고성을 평가합니다. Video-TT는 1,000개의 YouTube Shorts 비디오로 구성되어 있으며, 각 비디오에는 하나의 개방형 질문과 시각적 및 내러티브 복잡성을 탐구하는 네 개의 적대적 질문이 포함됩니다. 우리의 평가는 비디오 LLM과 인간 성능 간에 상당한 격차가 있음을 보여줍니다.
English
Human intelligence requires correctness and robustness, with the former being
foundational for the latter. In video understanding, correctness ensures the
accurate interpretation of visual content, and robustness maintains consistent
performance in challenging conditions. Despite advances in video large language
models (video LLMs), existing benchmarks inadequately reflect the gap between
these models and human intelligence in maintaining correctness and robustness
in video interpretation. We introduce the Video Thinking Test (Video-TT), to
assess if video LLMs can interpret real-world videos as effectively as humans.
Video-TT reflects genuine gaps in understanding complex visual narratives, and
evaluates robustness against natural adversarial questions. Video-TT comprises
1,000 YouTube Shorts videos, each with one open-ended question and four
adversarial questions that probe visual and narrative complexity. Our
evaluation shows a significant gap between video LLMs and human performance.