ChatPaper.aiChatPaper

4D-Bench: Evaluación de Modelos de Lenguaje Multimodales de Gran Escala para la Comprensión de Objetos en 4D

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

March 22, 2025
Autores: Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la comprensión de imágenes/videos 2D. Sin embargo, no existen puntos de referencia estandarizados y públicos para evaluar las habilidades de los MLLMs en la comprensión de objetos 4D (objetos 3D con evolución temporal a lo largo del tiempo). En este artículo, presentamos 4D-Bench, el primer punto de referencia diseñado para evaluar las capacidades de los MLLMs en la comprensión de objetos 4D, incluyendo tareas de Preguntas y Respuestas sobre objetos 4D (4D object QA) y descripción de objetos 4D (4D object captioning). 4D-Bench proporciona objetos 4D con diversas categorías, anotaciones de alta calidad y tareas que requieren una comprensión espacio-temporal multivista, diferenciándose de los puntos de referencia existentes basados en imágenes/videos 2D. Con 4D-Bench, evaluamos una amplia gama de MLLMs de código abierto y cerrado. Los resultados del experimento de descripción de objetos 4D indican que los MLLMs generalmente muestran una comprensión temporal más débil en comparación con su comprensión de la apariencia. En particular, mientras que los modelos de código abierto se acercan al rendimiento de los modelos cerrados en la comprensión de la apariencia, muestran brechas de rendimiento más grandes en la comprensión temporal. Las Preguntas y Respuestas sobre objetos 4D arrojan hallazgos sorprendentes: incluso con videos simples de un solo objeto, los MLLMs tienen un rendimiento deficiente, con el modelo GPT-4o, el más avanzado, alcanzando solo un 63% de precisión en comparación con la línea base humana del 91%. Estos hallazgos resaltan una brecha sustancial en la comprensión de objetos 4D y la necesidad de avances adicionales en los MLLMs.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive 2D image/video understanding capabilities. However, there are no publicly standardized benchmarks to assess the abilities of MLLMs in understanding the 4D objects (3D objects with temporal evolution over time). In this paper, we introduce 4D-Bench, the first benchmark to evaluate the capabilities of MLLMs in 4D object understanding, featuring tasks in 4D object Question Answering (4D object QA) and 4D object captioning. 4D-Bench provides 4D objects with diverse categories, high-quality annotations, and tasks necessitating multi-view spatial-temporal understanding, different from existing 2D image/video-based benchmarks. With 4D-Bench, we evaluate a wide range of open-source and closed-source MLLMs. The results from the 4D object captioning experiment indicate that MLLMs generally exhibit weaker temporal understanding compared to their appearance understanding, notably, while open-source models approach closed-source performance in appearance understanding, they show larger performance gaps in temporal understanding. 4D object QA yields surprising findings: even with simple single-object videos, MLLMs perform poorly, with state-of-the-art GPT-4o achieving only 63\% accuracy compared to the human baseline of 91\%. These findings highlight a substantial gap in 4D object understanding and the need for further advancements in MLLMs.

Summary

AI-Generated Summary

PDF83March 31, 2025