ChatPaper.aiChatPaper

HERBench: Бенчмарк для интеграции множественных свидетельств в задаче ответов на вопросы по видео

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

December 16, 2025
Авторы: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI

Аннотация

Видео-крупные языковые модели (Video-LLM) стремительно совершенствуются, однако современные бенчмарки для видео-вопросно-ответных систем (VideoQA) часто допускают ответы на вопросы на основе единственного значимого признака, недостаточно проверяя способность к рассуждениям, требующим агрегации множественных визуальных свидетельств, разделенных во времени. Мы представляем HERBench — бенчмарк VideoQA, специально созданный для оценки интеграции множественных свидетельств во временном контексте. Каждый вопрос требует агрегации как минимум трех непересекающихся доказательных признаков из различных сегментов видео, так что ни языковые априорные предположения, ни единичный снимок не являются достаточными. HERBench включает 26 тысяч вопросов с пятью вариантами ответов, организованных в двенадцать композиционных задач, которые исследуют привязку идентичности, межобъектные отношения, временное упорядочивание, проверку совместного появления и счет. Чтобы сделать потребность в доказательствах измеримой, мы вводим понятие минимального необходимого набора кадров (MRFS) — наименьшего количества кадров, которые модель должна объединить для правильного ответа, и показываем, что HERBench предъявляет существенно более высокие требования по сравнению с предыдущими наборами данных (средний MRFS 5.5 против 2.6-4.2). Оценка 13 современных Video-LLM на HERBench выявляет повсеместные сбои: точность 31-42% лишь ненамного превышает базовый уровень случайного угадывания в 20%. Мы разделяем эту неудачу на два критических узких места: (1) дефицит извлечения, когда селекторы кадров упускают ключевые свидетельства, и (2) дефицит слияния, когда модели не могут интегрировать информацию даже при предоставлении всех необходимых свидетельств. Делая межвременные свидетельства одновременно неизбежными и количественно измеримыми, HERBench устанавливает принципиальную цель для развития надежного, композиционного понимания видео.
English
Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.
PDF92December 23, 2025