ChatPaper.aiChatPaper

HERBench: Een benchmark voor multi-evidentie-integratie bij video-vraagbeantwoording

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

December 16, 2025
Auteurs: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI

Samenvatting

Video Large Language Models (Video-LLM's) verbeteren snel, maar huidige benchmarks voor Video Question Answering (VideoQA) staan vaak toe dat vragen worden beantwoord op basis van één enkel saillant cue, waardoor redeneervaardigheden die meerdere, temporeel gescheiden visuele aanwijzingen moeten samenvoegen, onvoldoende worden getest. Wij presenteren HERBench, een VideoQA-benchmark die specifiek is ontwikkeld om de integratie van meervoudige aanwijzingen in de tijd te evalueren. Elke vraag vereist het samenvoegen van ten minste drie niet-overlappende bewijscues uit verschillende videosegmenten, zodat noch taalkundige voorkennis noch een momentopname volstaat. HERBench omvat 26.000 multiplechoicevragen met vijf keuzemogelijkheden, georganiseerd in twaalf compositionele taken die identiteitsbinding, kruis-entiteitrelaties, temporele ordening, co-occurrentieverificatie en tellen onderzoeken. Om de bewijsvraag meetbaar te maken, introduceren we de Minimum Required Frame-Set (MRFS), het kleinste aantal frames dat een model moet samenvoegen om correct te antwoorden, en tonen aan dat HERBench een aanzienlijk hogere eis stelt dan eerdere datasets (gemiddelde MRFS 5,5 versus 2,6-4,2). Evaluatie van 13 state-of-the-art Video-LLM's op HERBench toont wijdverbreide tekortkomingen: nauwkeurigheden van 31-42% liggen maar net boven de 20% random-guess-basislijn. We ontrafelen dit falen in twee kritieke knelpunten: (1) een retrievale tekortkoming, waarbij frameselectoren cruciale aanwijzingen over het hoofd zien, en (2) een fusietekortkoming, waarbij modellen er niet in slagen informatie te integreren zelfs wanneer alle benodigde aanwijzingen worden verstrekt. Door kruis-temporeel bewijs zowel onvermijdelijk als kwantificeerbaar te maken, biedt HERBench een principieel doel voor het bevorderen van robuust, compositioneel videobegrip.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.
PDF92December 23, 2025