비디오 SimpleQA: 대형 비디오 언어 모델의 사실성 평가를 향하여
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
March 24, 2025
저자: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
cs.AI
초록
대형 비디오 언어 모델(LVLMs)의 최근 발전은 이들의 다중 모달 이해 능력의 잠재력을 강조했지만, 비디오 맥락에서의 사실적 근거 평가는 여전히 해결되지 않은 중요한 과제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 LVLMs의 사실성 평가를 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 Video SimpleQA를 소개합니다. 우리의 작업은 다음과 같은 주요 특징들로 기존 비디오 벤치마크와 차별화됩니다: 1) 필요한 지식: 명시적인 서사 이상의 외부 지식 통합을 요구; 2) 사실 탐구 질문: 주관적 해석을 피하고 객관적이며 논쟁의 여지가 없는 사건이나 관계를 대상으로 함; 3) 명확하고 간결한 답변: 답변은 모호하지 않고 명확하게 정확하도록 간결하게 구성되어, LLM-as-a-judge 프레임워크를 통해 자동 평가가 가능하며 점수 변동이 최소화됨; 4) 외부 소스 검증: 모든 주석은 신뢰성을 보장하기 위해 권위 있는 외부 참조 자료에 대해 엄격하게 검증됨; 5) 시간적 추론 요구: 주석된 질문 유형은 정적 단일 프레임 이해와 동적 시간적 추론을 모두 포함하여, 장기 맥락 의존성 하에서 LVLMs의 사실성을 명시적으로 평가합니다. 우리는 41개의 최신 LVLMs를 광범위하게 평가하고 주요 결과를 다음과 같이 요약합니다: 1) 현재 LVLMs는 특히 오픈소스 모델에서 사실적 준수에 있어 상당한 결함을 보임. 최고 성능 모델인 Gemini-1.5-Pro는 F-score가 54.4%에 불과함; 2) 테스트 시점 계산 패러다임은 성능 향상에 있어 미미한 이득만을 보여, 사후 계산을 통해 사실성을 향상시키는 데 근본적인 제약이 있음을 드러냄; 3) 검색 증강 생성은 추가 추론 시간 오버헤드의 대가로 일관된 개선을 보여주며, 중요한 효율성-성능 트레이드오프를 제시함.
English
Recent advancements in Large Video Language Models (LVLMs) have highlighted
their potential for multi-modal understanding, yet evaluating their factual
grounding in video contexts remains a critical unsolved challenge. To address
this gap, we introduce Video SimpleQA, the first comprehensive benchmark
tailored for factuality evaluation of LVLMs. Our work distinguishes from
existing video benchmarks through the following key features: 1) Knowledge
required: demanding integration of external knowledge beyond the explicit
narrative; 2) Fact-seeking question: targeting objective, undisputed events or
relationships, avoiding subjective interpretation; 3) Definitive & short-form
answer: Answers are crafted as unambiguous and definitively correct in a short
format, enabling automated evaluation through LLM-as-a-judge frameworks with
minimal scoring variance; 4) External-source verified: All annotations undergo
rigorous validation against authoritative external references to ensure the
reliability; 5) Temporal reasoning required: The annotated question types
encompass both static single-frame understanding and dynamic temporal
reasoning, explicitly evaluating LVLMs factuality under the long-context
dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize
key findings as follows: 1) Current LVLMs exhibit notable deficiencies in
factual adherence, particularly for open-source models. The best-performing
model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute
paradigms show insignificant performance gains, revealing fundamental
constraints for enhancing factuality through post-hoc computation; 3)
Retrieval-Augmented Generation demonstrates consistent improvements at the cost
of additional inference time overhead, presenting a critical
efficiency-performance trade-off.