MotionBench: Benchmarken en Verbeteren van Fijnmazig Video Bewegingsbegrip voor Visie Taalmodellen

Samenvatting

In de afgelopen jaren hebben visie-taalmodellen (VLM's) aanzienlijke vooruitgang geboekt op het gebied van videobegrip. Echter, een cruciale mogelijkheid - fijnmazig bewegingsbegrip - blijft onderbelicht in de huidige benchmarks. Om dit hiaat aan te pakken, stellen we MotionBench voor, een uitgebreide evaluatiebenchmark ontworpen om het fijnmazig bewegingsbegrip van videobegrijpende modellen te beoordelen. MotionBench evalueert het bewegingsniveau van modellen via zes primaire categorieën van bewegingsgerichte vraagtypen en bevat gegevens verzameld uit diverse bronnen, waardoor een brede representatie van real-world videomateriaal wordt gegarandeerd. Experimentele resultaten tonen aan dat bestaande VLM's slecht presteren in het begrijpen van fijnmazige bewegingen. Om de mogelijkheid van VLM's om fijnmazige beweging binnen een beperkte sequentielengte van LLM waar te nemen te verbeteren, voeren we uitgebreide experimenten uit waarbij VLM-architecturen worden beoordeeld die geoptimaliseerd zijn voor videokenmerkcompressie en stellen we een nieuw en efficiënte Door-Encoder (TE) Fusiemethode voor. Experimenten tonen aan dat hogere framesnelheid invoeren en TE Fusie verbeteringen opleveren in bewegingsbegrip, maar er is nog steeds aanzienlijke ruimte voor verbetering. Onze benchmark heeft tot doel de ontwikkeling van meer capabele videobegrijpende modellen te begeleiden en te stimuleren, waarbij de nadruk ligt op het belang van fijnmazig bewegingsbegrip. Projectpagina: https://motion-bench.github.io.

English

In recent years, vision language models (VLMs) have made significant advancements in video understanding. However, a crucial capability - fine-grained motion comprehension - remains under-explored in current benchmarks. To address this gap, we propose MotionBench, a comprehensive evaluation benchmark designed to assess the fine-grained motion comprehension of video understanding models. MotionBench evaluates models' motion-level perception through six primary categories of motion-oriented question types and includes data collected from diverse sources, ensuring a broad representation of real-world video content. Experimental results reveal that existing VLMs perform poorly in understanding fine-grained motions. To enhance VLM's ability to perceive fine-grained motion within a limited sequence length of LLM, we conduct extensive experiments reviewing VLM architectures optimized for video feature compression and propose a novel and efficient Through-Encoder (TE) Fusion method. Experiments show that higher frame rate inputs and TE Fusion yield improvements in motion understanding, yet there is still substantial room for enhancement. Our benchmark aims to guide and motivate the development of more capable video understanding models, emphasizing the importance of fine-grained motion comprehension. Project page: https://motion-bench.github.io .

MotionBench: Benchmarken en Verbeteren van Fijnmazig Video Bewegingsbegrip voor Visie Taalmodellen

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Samenvatting

Summary

Support

Support