ChatPaper.aiChatPaper

MotionBench: Evaluación y Mejora de la Comprensión de Movimiento en Video Detallado para Modelos de Lenguaje Visual

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

January 6, 2025
Autores: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
cs.AI

Resumen

En los últimos años, los modelos de visión y lenguaje (VLMs) han logrado avances significativos en la comprensión de videos. Sin embargo, una capacidad crucial, la comprensión detallada del movimiento, sigue siendo poco explorada en los benchmarks actuales. Para abordar esta brecha, proponemos MotionBench, un benchmark de evaluación integral diseñado para evaluar la comprensión detallada del movimiento en modelos de comprensión de video. MotionBench evalúa la percepción a nivel de movimiento de los modelos a través de seis categorías principales de tipos de preguntas orientadas al movimiento e incluye datos recopilados de diversas fuentes, asegurando una representación amplia de contenido de video del mundo real. Los resultados experimentales revelan que los VLMs existentes tienen un bajo rendimiento en la comprensión de movimientos detallados. Para mejorar la capacidad de los VLMs para percibir el movimiento detallado dentro de una longitud de secuencia limitada de LLM, realizamos experimentos exhaustivos revisando arquitecturas de VLM optimizadas para la compresión de características de video y proponemos un método de Fusión a través del Codificador (TE) novedoso y eficiente. Los experimentos muestran que entradas con una velocidad de cuadro más alta y la Fusión TE proporcionan mejoras en la comprensión del movimiento, aunque aún hay un amplio margen para la mejora. Nuestro benchmark tiene como objetivo guiar y motivar el desarrollo de modelos de comprensión de video más capaces, enfatizando la importancia de la comprensión detallada del movimiento. Página del proyecto: https://motion-bench.github.io.
English
In recent years, vision language models (VLMs) have made significant advancements in video understanding. However, a crucial capability - fine-grained motion comprehension - remains under-explored in current benchmarks. To address this gap, we propose MotionBench, a comprehensive evaluation benchmark designed to assess the fine-grained motion comprehension of video understanding models. MotionBench evaluates models' motion-level perception through six primary categories of motion-oriented question types and includes data collected from diverse sources, ensuring a broad representation of real-world video content. Experimental results reveal that existing VLMs perform poorly in understanding fine-grained motions. To enhance VLM's ability to perceive fine-grained motion within a limited sequence length of LLM, we conduct extensive experiments reviewing VLM architectures optimized for video feature compression and propose a novel and efficient Through-Encoder (TE) Fusion method. Experiments show that higher frame rate inputs and TE Fusion yield improvements in motion understanding, yet there is still substantial room for enhancement. Our benchmark aims to guide and motivate the development of more capable video understanding models, emphasizing the importance of fine-grained motion comprehension. Project page: https://motion-bench.github.io .

Summary

AI-Generated Summary

PDF452January 8, 2025