HERBench : Un Benchmark pour l'Intégration de Preuves Multiples dans la Réponse à des Questions sur des Vidéos
HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
December 16, 2025
papers.authors: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
papers.abstract
Les modèles de langage de grande taille pour la vidéo (Video-LLMs) progressent rapidement, mais les benchmarks actuels de question-réponse vidéo (VideoQA) permettent souvent de répondre aux questions à partir d'un seul indice saillant, sous-évaluant ainsi le raisonnement qui nécessite l'agrégation de multiples preuves visuelles temporellement séparées. Nous présentons HERBench, un benchmark VideoQA conçu spécifiquement pour évaluer l'intégration de preuves multiples dans le temps. Chaque question nécessite l'agrégation d'au moins trois indices probants non chevauchants répartis sur des segments vidéo distincts, de sorte que ni les prérequis linguistiques ni un instantané unique ne suffisent. HERBench comprend 26 000 questions à choix multiples (cinq options) organisées en douze tâches compositionnelles qui sondent la liaison d'identité, les relations inter-entités, l'ordonnancement temporel, la vérification de co-occurrence et le décompte. Pour rendre la demande probante mesurable, nous introduisons l'Ensemble Minimal d'Images Requises (MRFS), soit le nombre minimal d'images qu'un modèle doit fusionner pour répondre correctement, et montrons qu'HERBench impose une exigence nettement plus élevée que les jeux de données antérieurs (MRFS moyen de 5,5 contre 2,6-4,2). L'évaluation de 13 Video-LLMs de pointe sur HERBench révèle des échecs généralisés : les précisions de 31 à 42 % ne dépassent que légèrement le taux de réussite aléatoire de base de 20 %. Nous décomposons cet échec en deux goulots d'étranglement critiques : (1) un déficit de récupération, où les sélecteurs d'images négligent des preuves clés, et (2) un déficit de fusion, où les modèles échouent à intégrer l'information même lorsque toutes les preuves nécessaires sont fournies. En rendant les preuves temporelles à la fois incontournables et quantifiables, HERBench établit une cible principielle pour faire progresser la compréhension vidéo compositionnelle et robuste.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.