TVBench: 비디오-언어 평가 재설계
TVBench: Redesigning Video-Language Evaluation
October 10, 2024
저자: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI
초록
대형 언어 모델은 비전 모델과 통합되어 비디오 이해를 가능하게 함으로써 인상적인 성능을 보여주었습니다. 그러나 이러한 비디오 모델을 평가하는 것은 고유한 도전을 제기하며, 이를 위해 여러 벤치마크가 제안되었습니다. 본 논문에서는 현재 가장 많이 사용되는 비디오-언어 벤치마크가 시간적 추론을 거의 요구하지 않고 해결될 수 있다는 것을 보여줍니다. 우리는 기존 데이터셋에서 세 가지 주요 문제점을 확인했습니다: (i) 단일 프레임에서의 정적 정보만으로도 작업을 해결하는 데 충분한 경우가 많습니다. (ii) 질문과 후보 답변의 텍스트가 지나치게 정보를 제공하기 때문에 모델이 시각적 입력에 의존하지 않고도 정확하게 답변할 수 있습니다. (iii) 세계 지식만으로도 많은 질문에 답할 수 있어 벤치마크가 시각적 추론이 아닌 지식 복제의 테스트가 됩니다. 또한 비디오 이해를 위한 개방형 질문응답 벤치마크도 유사한 문제를 겪는 반면, 대형 언어 모델을 사용한 자동 평가 과정은 신뢰할 수 없어 적합한 대안이 되지 못합니다. 이에 대한 해결책으로 우리는 TVBench를 제안합니다. 이는 혁신적인 오픈 소스 비디오 객관식 질문응답 벤치마크로, 폭넓은 평가를 통해 높은 수준의 시간적 이해가 필요함을 입증합니다. 놀랍게도, 최근의 최첨단 비디오-언어 모델 대부분이 TVBench에서 무작위 수준의 성능을 보이며, Gemini-Pro와 Tarsier만이 명확히 이 기준을 능가하는 것으로 나타났습니다.
English
Large language models have demonstrated impressive performance when
integrated with vision models even enabling video understanding. However,
evaluating these video models presents its own unique challenges, for which
several benchmarks have been proposed. In this paper, we show that the
currently most used video-language benchmarks can be solved without requiring
much temporal reasoning. We identified three main issues in existing datasets:
(i) static information from single frames is often sufficient to solve the
tasks (ii) the text of the questions and candidate answers is overly
informative, allowing models to answer correctly without relying on any visual
input (iii) world knowledge alone can answer many of the questions, making the
benchmarks a test of knowledge replication rather than visual reasoning. In
addition, we found that open-ended question-answering benchmarks for video
understanding suffer from similar issues while the automatic evaluation process
with LLMs is unreliable, making it an unsuitable alternative. As a solution, we
propose TVBench, a novel open-source video multiple-choice question-answering
benchmark, and demonstrate through extensive evaluations that it requires a
high level of temporal understanding. Surprisingly, we find that most recent
state-of-the-art video-language models perform similarly to random performance
on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.