ChatPaper.aiChatPaper

HERBench: Un punto de referencia para la integración de múltiples evidencias en la respuesta a preguntas sobre vídeos

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

December 16, 2025
Autores: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI

Resumen

Los Modelos de Lenguaje Grandes para Video (Video-LLM) están mejorando rápidamente, sin embargo, los puntos de referencia actuales de Respuesta a Preguntas sobre Video (VideoQA) a menudo permiten que las preguntas se respondan a partir de una única pista destacada, evaluando insuficientemente el razonamiento que debe agregar múltiples evidencias visuales separadas temporalmente. Presentamos HERBench, un punto de referencia de VideoQA diseñado específicamente para evaluar la integración de múltiples evidencias a lo largo del tiempo. Cada pregunta requiere agregar al menos tres pistas evidenciales no superpuestas en segmentos de video distintos, de modo que ni los conocimientos previos lingüísticos ni una sola instantánea son suficientes. HERBench comprende 26.000 preguntas de opción múltiple con cinco opciones, organizadas en doce tareas composicionales que exploran la vinculación de identidades, las relaciones entre entidades, el ordenamiento temporal, la verificación de co-ocurrencia y el conteo. Para hacer medible la demanda de evidencia, introducimos el Conjunto Mínimo de Fotogramas Requeridos (MRFS), el número mínimo de fotogramas que un modelo debe fusionar para responder correctamente, y demostramos que HERBench impone una demanda sustancialmente mayor que los conjuntos de datos anteriores (MRFS medio de 5.5 frente a 2.6-4.2). La evaluación de 13 Video-LLM de última generación en HERBench revela fallos generalizados: las precisiones del 31-42% están solo ligeramente por encima del nivel base de acierto aleatorio del 20%. Desglosamos este fallo en dos cuellos de botella críticos: (1) un déficit de recuperación, donde los selectores de fotogramas pasan por alto evidencia clave, y (2) un déficit de fusión, donde los modelos fallan en integrar información incluso cuando se proporciona toda la evidencia necesaria. Al hacer que la evidencia a través del tiempo sea tanto inevitable como cuantificable, HERBench establece un objetivo fundamentado para avanzar hacia una comprensión de video robusta y composicional.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.
PDF92December 23, 2025