4D-Bench : Évaluation des modèles de langage multi-modaux pour la compréhension d'objets en 4D
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding
March 22, 2025
Auteurs: Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités impressionnantes dans la compréhension d'images/vidéos 2D. Cependant, il n'existe pas de benchmarks standardisés publics pour évaluer les capacités des MLLMs à comprendre les objets 4D (objets 3D avec une évolution temporelle). Dans cet article, nous présentons 4D-Bench, le premier benchmark conçu pour évaluer les capacités des MLLMs dans la compréhension d'objets 4D, incluant des tâches de question-réponse sur les objets 4D (4D object QA) et de description d'objets 4D (4D object captioning). 4D-Bench propose des objets 4D de catégories variées, des annotations de haute qualité, et des tâches nécessitant une compréhension spatio-temporelle multi-vues, ce qui le distingue des benchmarks existants basés sur des images/vidéos 2D. Avec 4D-Bench, nous évaluons un large éventail de MLLMs open-source et propriétaires. Les résultats de l'expérience de description d'objets 4D indiquent que les MLLMs présentent généralement une compréhension temporelle plus faible par rapport à leur compréhension de l'apparence. Notamment, bien que les modèles open-source se rapprochent des performances des modèles propriétaires dans la compréhension de l'apparence, ils montrent des écarts de performance plus importants dans la compréhension temporelle. Les résultats de la tâche de question-réponse sur les objets 4D révèlent des constatations surprenantes : même avec des vidéos simples d'un seul objet, les MLLMs obtiennent de faibles performances, avec GPT-4o, un modèle de pointe, atteignant seulement 63 % de précision par rapport à une référence humaine de 91 %. Ces résultats mettent en évidence un écart significatif dans la compréhension des objets 4D et la nécessité de progrès supplémentaires dans les MLLMs.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive 2D
image/video understanding capabilities. However, there are no publicly
standardized benchmarks to assess the abilities of MLLMs in understanding the
4D objects (3D objects with temporal evolution over time). In this paper, we
introduce 4D-Bench, the first benchmark to evaluate the capabilities of MLLMs
in 4D object understanding, featuring tasks in 4D object Question Answering (4D
object QA) and 4D object captioning. 4D-Bench provides 4D objects with diverse
categories, high-quality annotations, and tasks necessitating multi-view
spatial-temporal understanding, different from existing 2D image/video-based
benchmarks. With 4D-Bench, we evaluate a wide range of open-source and
closed-source MLLMs. The results from the 4D object captioning experiment
indicate that MLLMs generally exhibit weaker temporal understanding compared to
their appearance understanding, notably, while open-source models approach
closed-source performance in appearance understanding, they show larger
performance gaps in temporal understanding. 4D object QA yields surprising
findings: even with simple single-object videos, MLLMs perform poorly, with
state-of-the-art GPT-4o achieving only 63\% accuracy compared to the human
baseline of 91\%. These findings highlight a substantial gap in 4D object
understanding and the need for further advancements in MLLMs.Summary
AI-Generated Summary