ChatPaper.aiChatPaper

MotionBench: Benchmarking und Verbesserung der feinkörnigen Video-Bewegungsverständnis für Sprachmodelle der visuellen Wahrnehmung

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

January 6, 2025
Autoren: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI

Zusammenfassung

In den letzten Jahren haben Vision Language Models (VLMs) bedeutende Fortschritte bei der Videoverarbeitung erzielt. Allerdings bleibt eine entscheidende Fähigkeit - die feinkörnige Bewegungskomprehension - in aktuellen Benchmarks untererforscht. Um diese Lücke zu schließen, schlagen wir MotionBench vor, einen umfassenden Evaluierungsbenchmark, der entwickelt wurde, um die feinkörnige Bewegungskomprehension von Videoverarbeitungsmodellen zu bewerten. MotionBench bewertet die Bewegungswahrnehmung der Modelle auf Bewegungsebene durch sechs primäre Kategorien von bewegungsorientierten Fragestellungen und beinhaltet Daten aus verschiedenen Quellen, um eine breite Repräsentation von Videoinhalten aus der realen Welt sicherzustellen. Experimentelle Ergebnisse zeigen, dass bestehende VLMs Schwierigkeiten haben, feinkörnige Bewegungen zu verstehen. Um die Fähigkeit von VLMs zur Wahrnehmung feinkörniger Bewegungen innerhalb einer begrenzten Sequenzlänge von LLM zu verbessern, führen wir umfangreiche Experimente durch, bei denen VLM-Architekturen für die Kompression von Videoeigenschaften optimiert werden, und schlagen eine neuartige und effiziente Durch-Encoder (TE) Fusion-Methode vor. Die Experimente zeigen, dass eine höhere Bildfrequenz und TE Fusion Verbesserungen bei der Bewegungsverarbeitung bringen, jedoch besteht noch erheblicher Raum für Verbesserungen. Unser Benchmark zielt darauf ab, die Entwicklung von leistungsfähigeren Videoverarbeitungsmodellen zu leiten und zu motivieren, wobei die Bedeutung der feinkörnigen Bewegungskomprehension betont wird. Projektseite: https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant advancements in video understanding. However, a crucial capability - fine-grained motion comprehension - remains under-explored in current benchmarks. To address this gap, we propose MotionBench, a comprehensive evaluation benchmark designed to assess the fine-grained motion comprehension of video understanding models. MotionBench evaluates models' motion-level perception through six primary categories of motion-oriented question types and includes data collected from diverse sources, ensuring a broad representation of real-world video content. Experimental results reveal that existing VLMs perform poorly in understanding fine-grained motions. To enhance VLM's ability to perceive fine-grained motion within a limited sequence length of LLM, we conduct extensive experiments reviewing VLM architectures optimized for video feature compression and propose a novel and efficient Through-Encoder (TE) Fusion method. Experiments show that higher frame rate inputs and TE Fusion yield improvements in motion understanding, yet there is still substantial room for enhancement. Our benchmark aims to guide and motivate the development of more capable video understanding models, emphasizing the importance of fine-grained motion comprehension. Project page: https://motion-bench.github.io .

Summary

AI-Generated Summary

PDF452January 8, 2025