MotionBench: Benchmarken en Verbeteren van Fijnmazig Video Bewegingsbegrip voor Visie Taalmodellen
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
January 6, 2025
Auteurs: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
In de afgelopen jaren hebben visie-taalmodellen (VLM's) aanzienlijke vooruitgang geboekt op het gebied van videobegrip. Echter, een cruciale mogelijkheid - fijnmazig bewegingsbegrip - blijft onderbelicht in de huidige benchmarks. Om dit hiaat aan te pakken, stellen we MotionBench voor, een uitgebreide evaluatiebenchmark ontworpen om het fijnmazig bewegingsbegrip van videobegrijpende modellen te beoordelen. MotionBench evalueert het bewegingsniveau van modellen via zes primaire categorieën van bewegingsgerichte vraagtypen en bevat gegevens verzameld uit diverse bronnen, waardoor een brede representatie van real-world videomateriaal wordt gegarandeerd. Experimentele resultaten tonen aan dat bestaande VLM's slecht presteren in het begrijpen van fijnmazige bewegingen. Om de mogelijkheid van VLM's om fijnmazige beweging binnen een beperkte sequentielengte van LLM waar te nemen te verbeteren, voeren we uitgebreide experimenten uit waarbij VLM-architecturen worden beoordeeld die geoptimaliseerd zijn voor videokenmerkcompressie en stellen we een nieuw en efficiënte Door-Encoder (TE) Fusiemethode voor. Experimenten tonen aan dat hogere framesnelheid invoeren en TE Fusie verbeteringen opleveren in bewegingsbegrip, maar er is nog steeds aanzienlijke ruimte voor verbetering. Onze benchmark heeft tot doel de ontwikkeling van meer capabele videobegrijpende modellen te begeleiden en te stimuleren, waarbij de nadruk ligt op het belang van fijnmazig bewegingsbegrip. Projectpagina: https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant
advancements in video understanding. However, a crucial capability -
fine-grained motion comprehension - remains under-explored in current
benchmarks. To address this gap, we propose MotionBench, a comprehensive
evaluation benchmark designed to assess the fine-grained motion comprehension
of video understanding models. MotionBench evaluates models' motion-level
perception through six primary categories of motion-oriented question types and
includes data collected from diverse sources, ensuring a broad representation
of real-world video content. Experimental results reveal that existing VLMs
perform poorly in understanding fine-grained motions. To enhance VLM's ability
to perceive fine-grained motion within a limited sequence length of LLM, we
conduct extensive experiments reviewing VLM architectures optimized for video
feature compression and propose a novel and efficient Through-Encoder (TE)
Fusion method. Experiments show that higher frame rate inputs and TE Fusion
yield improvements in motion understanding, yet there is still substantial room
for enhancement. Our benchmark aims to guide and motivate the development of
more capable video understanding models, emphasizing the importance of
fine-grained motion comprehension. Project page: https://motion-bench.github.io .Summary
AI-Generated Summary