TVBench: Пересмотр оценки видео-языковых данных
TVBench: Redesigning Video-Language Evaluation
October 10, 2024
Авторы: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Аннотация
Большие языковые модели продемонстрировали впечатляющую производительность при интеграции с моделями зрения, даже позволяя понимание видео. Однако оценка этих видеомоделей представляет собой собственные уникальные вызовы, для решения которых было предложено несколько бенчмарков. В данной статье мы показываем, что наиболее используемые в настоящее время видео-языковые бенчмарки могут быть решены без необходимости значительного временного рассуждения. Мы выявили три основных проблемы в существующих наборах данных: (i) статическая информация из отдельных кадров часто достаточна для решения задач, (ii) текст вопросов и вариантов ответов слишком информативен, что позволяет моделям отвечать правильно без использования визуального ввода, (iii) только мировое знание может ответить на многие вопросы, делая бенчмарки тестом на воспроизведение знаний, а не на визуальное рассуждение. Кроме того, мы обнаружили, что бенчмарки с открытым вопросно-ответным форматом для понимания видео страдают от аналогичных проблем, а процесс автоматической оценки с использованием БМ является ненадежным, что делает его неприемлемой альтернативой. В качестве решения мы предлагаем TVBench, новый открытый бенчмарк для видео с множественным выбором вопросов и ответов, и демонстрируем через обширные оценки, что для его решения требуется высокий уровень временного понимания. Удивительно, что большинство последних передовых видео-языковых моделей производительности схожи с случайной производительностью на TVBench, превосходя этот базовый уровень только Gemini-Pro и Tarsier.
English
Large language models have demonstrated impressive performance when
integrated with vision models even enabling video understanding. However,
evaluating these video models presents its own unique challenges, for which
several benchmarks have been proposed. In this paper, we show that the
currently most used video-language benchmarks can be solved without requiring
much temporal reasoning. We identified three main issues in existing datasets:
(i) static information from single frames is often sufficient to solve the
tasks (ii) the text of the questions and candidate answers is overly
informative, allowing models to answer correctly without relying on any visual
input (iii) world knowledge alone can answer many of the questions, making the
benchmarks a test of knowledge replication rather than visual reasoning. In
addition, we found that open-ended question-answering benchmarks for video
understanding suffer from similar issues while the automatic evaluation process
with LLMs is unreliable, making it an unsuitable alternative. As a solution, we
propose TVBench, a novel open-source video multiple-choice question-answering
benchmark, and demonstrate through extensive evaluations that it requires a
high level of temporal understanding. Surprisingly, we find that most recent
state-of-the-art video-language models perform similarly to random performance
on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.