HERBench: Um Benchmark para Integração de Múltiplas Evidências em Questionamento sobre Vídeos

Resumo

Os Modelos de Linguagem de Grande Porte para Vídeo (Video-LLMs) estão a melhorar rapidamente, no entanto, as referências atuais de Resposta a Perguntas sobre Vídeo (VideoQA) frequentemente permitem que as perguntas sejam respondidas a partir de uma única pista saliente, subavaliando o raciocínio que deve agregar múltiplas evidências visuais separadas temporalmente. Apresentamos o HERBench, uma referência de VideoQA construída com o propósito específico de avaliar a integração de múltiplas evidências ao longo do tempo. Cada pergunta requer a agregação de pelo menos três pistas de evidência não sobrepostas em segmentos de vídeo distintos, de modo que nem os pré-conhecimentos linguísticos nem um único *snapshot* são suficientes. O HERBench compreende 26 mil perguntas de múltipla escolha com cinco opções, organizadas em doze tarefas composicionais que investigam a vinculação de identidades, relações entre entidades, ordenação temporal, verificação de co-ocorrência e contagem. Para tornar a exigência de evidência mensurável, introduzimos o Conjunto Mínimo de *Frames* Necessários (MRFS), o menor número de *frames* que um modelo deve fundir para responder corretamente, e mostramos que o HERBench impõe uma exigência substancialmente maior do que os conjuntos de dados anteriores (MRFS médio de 5,5 contra 2,6-4,2). A avaliação de 13 Video-LLMs de última geração no HERBench revela falhas generalizadas: as precisões de 31-42% estão apenas ligeiramente acima da linha de base de 20% de respostas aleatórias. Desagregamos esta falha em dois estrangulamentos críticos: (1) um défice de recuperação, onde os seletores de *frames* ignoram evidências-chave, e (2) um défice de fusão, onde os modelos falham em integrar informação mesmo quando toda a evidência necessária é fornecida. Ao tornar a evidência transversal no tempo simultaneamente inevitável e quantificável, o HERBench estabelece um alvo fundamentado para o avanço da compreensão de vídeo robusta e composicional.

English

Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.

HERBench: Um Benchmark para Integração de Múltiplas Evidências em Questionamento sobre Vídeos

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

Resumo

Support