HERBench: Un Benchmark per l'Integrazione di Prove Multiple nel Video Question Answering
HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
December 16, 2025
Autori: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
Abstract
I modelli linguistici di grandi dimensioni per video (Video-LLM) stanno migliorando rapidamente, tuttavia, gli attuali benchmark per il Question Answering su Video (VideoQA) spesso consentono di rispondere alle domande basandosi su un singolo indizio saliente, sottovalutando il ragionamento che richiede l'integrazione di molteplici evidenze visive separate temporalmente. Presentiamo HERBench, un benchmark VideoQA concepito specificamente per valutare l'integrazione di evidenze multiple nel tempo. Ogni domanda richiede l'aggregazione di almeno tre indizi evidenti non sovrapposti in segmenti video distinti, in modo che né i preconcetti linguistici né un singolo fotogramma siano sufficienti. HERBench comprende 26 mila domande a scelta multipla a cinque opzioni, organizzate in dodici task composizionali che indagano il binding di identità, le relazioni tra entità, l'ordinamento temporale, la verifica della co-occorrenza e il conteggio. Per rendere misurabile la richiesta di evidenze, introduciamo l'Insieme Minimo di Fotogrammi Richiesti (MRFS), il numero minimo di fotogrammi che un modello deve fondere per rispondere correttamente, e dimostriamo che HERBench impone una richiesta sostanzialmente più elevata rispetto ai dataset precedenti (MRFS medio 5,5 vs. 2,6-4,2). La valutazione di 13 Video-LLM all'avanguardia su HERBench rivela fallimenti pervasivi: accuratezze del 31-42% sono solo leggermente superiori al baseline del 20% di risposte casuali. Scomponiamo questo fallimento in due colli di bottiglia critici: (1) un deficit di recupero, in cui i selettori di fotogrammi trascurano evidenze chiave, e (2) un deficit di fusione, in cui i modelli non riescono a integrare le informazioni anche quando tutte le evidenze necessarie sono fornite. Rendendo le evidenze temporali sia inevitabili che quantificabili, HERBench stabilisce un obiettivo principiato per far progredire una comprensione video robusta e composizionale.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.