Разбор тестов для видео-языковых моделей: знания, пространственное восприятие или подлинное понимание временных зависимостей?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
May 20, 2025
Авторы: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao
cs.AI
Аннотация
Существующие тестовые наборы для оценки понимания видео часто смешивают вопросы, основанные на знаниях, и вопросы, основанные исключительно на изображениях, вместо того чтобы четко изолировать способность модели к временному рассуждению, что является ключевым аспектом, отличающим понимание видео от других модальностей. Мы выделяем два основных ограничения, которые затрудняют определение того, действительно ли более высокие баллы свидетельствуют о лучшем понимании динамического содержания видео: (1) сильные языковые априори, когда модели могут отвечать на вопросы без просмотра видео; и (2) инвариантность к перемешиванию, когда модели сохраняют схожую производительность на определенных вопросах даже при временном перемешивании кадров видео. Для устранения этих проблем мы предлагаем VBenchComp, автоматизированный процесс, который классифицирует вопросы на различные домены: LLM-Answerable (вопросы, на которые можно ответить без просмотра видео), Semantic (вопросы, на которые можно ответить даже при перемешивании кадров видео) и Temporal (вопросы, требующие понимания правильного временного порядка кадров). Остальные вопросы помечаются как Others. Это позволяет проводить детальную оценку различных способностей видео-LLM. Наш анализ выявляет скрытые слабости моделей, которые не проявляются в традиционных общих баллах, и мы предлагаем рекомендации для разработки будущих тестовых наборов, которые более точно оценивают видео-LLM.
English
Existing video understanding benchmarks often conflate knowledge-based and
purely image-based questions, rather than clearly isolating a model's temporal
reasoning ability, which is the key aspect that distinguishes video
understanding from other modalities. We identify two major limitations that
obscure whether higher scores truly indicate stronger understanding of the
dynamic content in videos: (1) strong language priors, where models can answer
questions without watching the video; and (2) shuffling invariance, where
models maintain similar performance on certain questions even when video frames
are temporally shuffled. To alleviate these issues, we propose VBenchComp, an
automated pipeline that categorizes questions into different domains:
LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions
can be answered without viewing the video; Semantic questions remain answerable
even when the video frames are shuffled; and Temporal questions require
understanding the correct temporal order of frames. The rest of the questions
are labeled as Others. This can enable fine-grained evaluation of different
capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that
are hidden by traditional overall scores, and we offer insights and
recommendations for designing future benchmarks that more accurately assess
video LLMs.Summary
AI-Generated Summary