ChatPaper.aiChatPaper

HERBench: Ein Benchmark zur Integration multipler Evidenzen bei der Videofragebeantwortung

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

December 16, 2025
papers.authors: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI

papers.abstract

Große Videosprachmodelle (Video-LLMs) verbessern sich rapide, doch aktuelle Benchmarks für Videofragebeantwortung (VideoQA) erlauben es oft, dass Fragen anhand eines einzigen salienten Hinweises beantwortet werden können. Dadurch wird das erforderliche Schlussfolgern, das multiple, zeitlich getrennte visuelle Evidenzen aggregieren muss, unzureichend getestet. Wir stellen HERBench vor, einen VideoQA-Benchmark, der gezielt entwickelt wurde, um die Integration von Multi-Evidenz über die Zeit hinweg zu bewerten. Jede Frage erfordert die Aggregation von mindestens drei sich nicht überlappenden evidenziellen Hinweisen über verschiedene Videosegmente hinweg, sodass weder Sprach-Prior-Wissen noch eine einzelne Momentaufnahme ausreichen. HERBench umfasst 26.000 Multiple-Choice-Fragen mit fünf Antwortmöglichkeiten, die in zwölf kompositionelle Aufgaben unterteilt sind. Diese untersuchen Identitätsbindung, Entitätsübergreifende Relationen, Temporale Ordnung, Kookkurrenzverifikation und Zählen. Um den Evidenzbedarf messbar zu machen, führen wir den "Minimum Required Frame-Set" (MRFS) ein – die minimale Anzahl an Frames, die ein Modell fusionieren muss, um korrekt zu antworten. Wir zeigen, dass HERBench einen deutlich höheren Bedarf erfordert als bisherige Datensätze (durchschnittlicher MRFS 5.5 vs. 2.6-4.2). Die Evaluierung von 13 state-of-the-art Video-LLMs mit HERBench zeigt durchgängige Defizite: Genauigkeiten von 31–42 % liegen nur knapp über der 20 %-Zufallsrate. Wir zerlegen dieses Versagen in zwei kritische Engpässe: 1) ein Retrieval-Defizit, bei dem Frame-Selektoren Schlüsselevidenz übersehen, und 2) ein Fusionsdefizit, bei dem Modelle scheitern, Informationen zu integrieren, selbst wenn alle notwendigen Evidenzen bereitgestellt werden. Indem HERBench evidenzübergreifendes Schlussfolgern über die Zeit sowohl unvermeidbar als auch quantifizierbar macht, etabliert es ein fundiertes Ziel für die Entwicklung eines robusten, kompositionellen Videoverständnisses.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.
PDF92December 23, 2025