HERBench: 映像質問応答におけるマルチエビデンス統合のためのベンチマーク
HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
December 16, 2025
著者: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
要旨
ビデオ大規模言語モデル(Video-LLM)は急速に進歩しているが、現在のビデオ質問応答(VideoQA)ベンチマークでは、単一の顕著な手がかりから質問に答えられる場合が多く、時間的に分散した複数の視覚的証拠を統合する必要がある推論能力の評価が不十分である。本論文では、時間を跨いだ複数証拠の統合を評価するために特別に設計されたVideoQAベンチマーク、HERBenchを提案する。各質問には、異なるビデオセグメントに跨る少なくとも3つの重複しない証拠手がかりの統合が要求されるため、言語事前情報や単一のスナップショットだけでは解答できない。HERBenchは、同一性の結合、複数実体間の関係、時間的順序、同時発生の検証、計数といった12の合成的タスクに分類された26,000の五者択一問題で構成される。証拠要求を測定可能とするため、正答するためにモデルが統合しなければならない最小フレーム数を示す最小必要フレームセット(MRFS)を導入し、HERBenchが既存データセット(平均MRFS 2.6-4.2)よりも大幅に高い要求(平均MRFS 5.5)を課すことを示す。13の最先端Video-LLMをHERBenchで評価した結果、広範な失敗が明らかとなった:31-42%の正解率は、20%のランダム推測ベースラインをわずかに上回るのみである。この失敗要因を2つの重大なボトルネックに分解する:(1) フレーム選択器が重要な証拠を見落とす検索不足、および (2) 必要な証拠が全て提供されている場合でも情報を統合できない融合不足である。時間を跨ぐ証拠の統合を回避不能かつ定量化可能にすることで、HERBenchは頑健で合成的なビデオ理解を推進するための原理的な目標を確立する。
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.