MotionBench: Тестирование и улучшение понимания мелкозернистого движения видео для моделей языка зрения
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
January 6, 2025
Авторы: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI
Аннотация
В последние годы модели видео-языка (VLM) сделали значительные успехи в понимании видео. Однако критическая способность - понимание мелких движений - остается недостаточно исследованной в текущих бенчмарках. Для заполнения этого пробела мы предлагаем MotionBench, комплексный бенчмарк, разработанный для оценки понимания мелких движений моделями понимания видео. MotionBench оценивает восприятие моделями уровня движения через шесть основных категорий вопросов, ориентированных на движение, и включает данные, собранные из различных источников, обеспечивая широкое представление видео-контента реального мира. Экспериментальные результаты показывают, что существующие VLM плохо справляются с пониманием мелких движений. Для улучшения способности VLM воспринимать мелкие движения в ограниченной длине последовательности LLM мы проводим обширные эксперименты, рассматривая архитектуры VLM, оптимизированные для сжатия видео-признаков, и предлагаем новый и эффективный метод объединения Through-Encoder (TE) Fusion. Эксперименты показывают, что входы с более высокой частотой кадров и TE Fusion приводят к улучшениям в понимании движения, однако есть еще значительное пространство для улучшения. Наш бенчмарк направлен на руководство и мотивацию разработки более способных моделей понимания видео, подчеркивая важность понимания мелких движений. Страница проекта: https://motion-bench.github.io .
English
In recent years, vision language models (VLMs) have made significant
advancements in video understanding. However, a crucial capability -
fine-grained motion comprehension - remains under-explored in current
benchmarks. To address this gap, we propose MotionBench, a comprehensive
evaluation benchmark designed to assess the fine-grained motion comprehension
of video understanding models. MotionBench evaluates models' motion-level
perception through six primary categories of motion-oriented question types and
includes data collected from diverse sources, ensuring a broad representation
of real-world video content. Experimental results reveal that existing VLMs
perform poorly in understanding fine-grained motions. To enhance VLM's ability
to perceive fine-grained motion within a limited sequence length of LLM, we
conduct extensive experiments reviewing VLM architectures optimized for video
feature compression and propose a novel and efficient Through-Encoder (TE)
Fusion method. Experiments show that higher frame rate inputs and TE Fusion
yield improvements in motion understanding, yet there is still substantial room
for enhancement. Our benchmark aims to guide and motivate the development of
more capable video understanding models, emphasizing the importance of
fine-grained motion comprehension. Project page: https://motion-bench.github.io .Summary
AI-Generated Summary