VideoReasonBench: Способны ли MLLM выполнять сложное видеосвязанное рассуждение?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
May 29, 2025
Авторы: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI
Аннотация
Недавние исследования показали, что длинные цепочки рассуждений (Chain-of-Thought, CoT) могут значительно улучшить производительность крупных языковых моделей (LLMs) на сложных задачах. Однако это преимущество еще не было продемонстрировано в области понимания видео, поскольку большинство существующих тестовых наборов данных не обладают достаточной глубиной рассуждений, чтобы показать преимущества расширенных цепочек CoT. Хотя недавние усилия были направлены на создание тестовых наборов для видео-рассуждений, задачи в них часто основываются на знаниях и не сильно зависят от визуального контента. Чтобы устранить этот пробел, мы представляем VideoReasonBench — тестовый набор данных, разработанный для оценки визуально-ориентированных сложных видео-рассуждений. Чтобы обеспечить визуальное разнообразие и высокую сложность рассуждений, каждое видео в VideoReasonBench изображает последовательность детализированных операций над скрытым состоянием, которое видно только в части видео. Вопросы оценивают три возрастающих уровня навыков видео-рассуждений: воспроизведение наблюдаемой визуальной информации, вывод содержания скрытых состояний и предсказание информации за пределами видео. В такой постановке задачи модели должны точно воспроизводить множество операций в видео и выполнять пошаговые рассуждения, чтобы получить правильные ответы на эти вопросы. Используя VideoReasonBench, мы всесторонне оценили 18 современных мультимодальных LLMs (MLLMs) и обнаружили, что большинство из них плохо справляются со сложными видео-рассуждениями. Например, GPT-4o достигает точности всего 6,9%, в то время как улучшенная версия Gemini-2.5-Pro значительно превосходит другие модели с точностью 56,0%. Наши исследования "масштабирования во время тестирования" дополнительно показывают, что увеличение бюджета на рассуждения, хотя и не приносит или приносит минимальную пользу на существующих видео-тестах, является важным для улучшения производительности на VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can
significantly enhance the performance of large language models (LLMs) on
complex tasks. However, this benefit is yet to be demonstrated in the domain of
video understanding, since most existing benchmarks lack the reasoning depth
required to demonstrate the advantages of extended CoT chains. While recent
efforts have proposed benchmarks aimed at video reasoning, the tasks are often
knowledge-driven and do not rely heavily on visual content. To bridge this gap,
we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric,
complex video reasoning. To ensure visual richness and high reasoning
complexity, each video in VideoReasonBench depicts a sequence of fine-grained
operations on a latent state that is only visible in part of the video. The
questions evaluate three escalating levels of video reasoning skills: recalling
observed visual information, inferring the content of latent states, and
predicting information beyond the video. Under such task setting, models have
to precisely recall multiple operations in the video, and perform step-by-step
reasoning to get correct final answers for these questions. Using
VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal
LLMs (MLLMs), finding that most perform poorly on complex video reasoning,
e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced
Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our
investigations on "test-time scaling" further reveal that extended thinking
budget, while offering none or minimal benefits on existing video benchmarks,
is essential for improving the performance on VideoReasonBench.Summary
AI-Generated Summary