HERBench: 비디오 질의응답에서 다중 증거 통합을 위한 벤치마크
HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
December 16, 2025
저자: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
초록
비디오 대규모 언어 모델(Video-LLM)의 성능이 빠르게 향상되고 있지만, 현재의 비디오 질의응답(VideoQA) 벤치마크는 단일한 두드러진 단서만으로 질문에 답할 수 있게 하여 시간적으로 분리된 여러 시각적 증거를 종합해야 하는 추론 능력을 충분히 평가하지 못하는 경우가 많습니다. 본 논문은 시간에 걸친 다중 증거 통합 능력을 평가하기 위해 특별히 제작된 VideoQA 벤치마크인 HERBench를 소개합니다. 각 질문은 서로 다른 비디오 세그먼트에 걸쳐 최소 세 개의 중복되지 않는 증거적 단서를 종합해야 하므로, 언어 사전 지식이나 단일 스냅샷만으로는 답변이 불가능합니다. HERBench는 정체성 결합, 개체 간 관계, 시간적 순서, 동시 발생 검증, 계수 등 12가지 구성적 작업으로 구성된 26,000개의 5지 선다형 질문으로 이루어져 있습니다. 증거 요구량을 측정 가능하게 하기 위해, 모델이 정답을 도출하기 위해 반드시 융합해야 하는 최소 프레임 집합(MRFS) 개념을 도입하였으며, HERBench가 기존 데이터셋(평균 MRFS 2.6-4.2)보다 훨씬 높은 요구량(평균 MRFS 5.5)을 부과함을 보여줍니다. HERBench를 통해 13개의 최첨단 Video-LLM을 평가한 결과, 보편적인 실패가 드러났습니다: 31-42%의 정확도는 20%의 무작위 추측 기준선을 약간 상회하는 수준에 불과했습니다. 이러한 실패 원인을 두 가지 중요한 병목 현상으로 구분하였습니다: (1) 프레임 선택기가 핵심 증거를 간과하는 검색 결핍과 (2) 필요한 모든 증거가 제공되더라도 정보를 통합하지 못하는 융합 결핍입니다. 시간을 가로지르는 증거 활용을 불가피하고 정량화 가능하게 만듦으로써, HERBench는 강건하고 구성적인 비디오 이해 능력을 발전시키기 위한 원칙적인 목표를 설정합니다.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.