MotionBench : Évaluation et Amélioration de la Compréhension Fine des Mouvements Vidéo pour les Modèles Vision Langage
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
January 6, 2025
Auteurs: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI
Résumé
Ces dernières années, les modèles de vision et de langage (VLM) ont réalisé des avancées significatives dans la compréhension des vidéos. Cependant, une capacité cruciale - la compréhension des mouvements détaillés - reste peu explorée dans les benchmarks actuels. Pour combler cette lacune, nous proposons MotionBench, un benchmark d'évaluation complet conçu pour évaluer la compréhension des mouvements détaillés des modèles de compréhension vidéo. MotionBench évalue la perception au niveau du mouvement des modèles à travers six catégories principales de types de questions orientées vers le mouvement et inclut des données collectées auprès de sources diverses, garantissant une représentation large du contenu vidéo du monde réel. Les résultats expérimentaux révèlent que les VLM existants ont du mal à comprendre les mouvements détaillés. Pour améliorer la capacité des VLM à percevoir les mouvements détaillés dans une séquence limitée de LLM, nous menons des expériences approfondies en examinant les architectures de VLM optimisées pour la compression des caractéristiques vidéo et proposons une méthode de Fusion à travers l'Encodeur (TE) novatrice et efficace. Les expériences montrent que des entrées à fréquence d'images plus élevée et la Fusion TE apportent des améliorations dans la compréhension des mouvements, mais il reste encore une marge importante pour l'amélioration. Notre benchmark vise à guider et à motiver le développement de modèles de compréhension vidéo plus performants, en mettant l'accent sur l'importance de la compréhension des mouvements détaillés. Page du projet : https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant
advancements in video understanding. However, a crucial capability -
fine-grained motion comprehension - remains under-explored in current
benchmarks. To address this gap, we propose MotionBench, a comprehensive
evaluation benchmark designed to assess the fine-grained motion comprehension
of video understanding models. MotionBench evaluates models' motion-level
perception through six primary categories of motion-oriented question types and
includes data collected from diverse sources, ensuring a broad representation
of real-world video content. Experimental results reveal that existing VLMs
perform poorly in understanding fine-grained motions. To enhance VLM's ability
to perceive fine-grained motion within a limited sequence length of LLM, we
conduct extensive experiments reviewing VLM architectures optimized for video
feature compression and propose a novel and efficient Through-Encoder (TE)
Fusion method. Experiments show that higher frame rate inputs and TE Fusion
yield improvements in motion understanding, yet there is still substantial room
for enhancement. Our benchmark aims to guide and motivate the development of
more capable video understanding models, emphasizing the importance of
fine-grained motion comprehension. Project page: https://motion-bench.github.io .Summary
AI-Generated Summary