ChatPaper.aiChatPaper

4D-Bench: 4次元オブジェクト理解のためのマルチモーダル大規模言語モデルのベンチマーキング

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

March 22, 2025
著者: Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、2D画像/動画の理解能力において印象的な成果を上げています。しかし、4Dオブジェクト(時間の経過とともに変化する3Dオブジェクト)の理解能力を評価するための公的に標準化されたベンチマークは存在しません。本論文では、4Dオブジェクト理解におけるMLLMsの能力を評価する最初のベンチマークである4D-Benchを紹介します。4D-Benchは、4Dオブジェクト質問応答(4DオブジェクトQA)と4Dオブジェクトキャプショニングのタスクを特徴としています。4D-Benchは、多様なカテゴリの4Dオブジェクト、高品質なアノテーション、および既存の2D画像/動画ベースのベンチマークとは異なる、多視点時空間理解を必要とするタスクを提供します。4D-Benchを用いて、オープンソースおよびクローズドソースの幅広いMLLMsを評価しました。4Dオブジェクトキャプショニング実験の結果から、MLLMsは一般的に外観理解に比べて時間的理解が弱いことが示されました。特に、オープンソースモデルは外観理解においてクローズドソースモデルに近い性能を示す一方で、時間的理解においては大きな性能差が見られました。4DオブジェクトQAでは驚くべき発見がありました:単純な単一オブジェクトの動画であっても、MLLMsの性能は低く、最先端のGPT-4oでさえ人間のベースラインである91%に対して63%の精度しか達成しませんでした。これらの発見は、4Dオブジェクト理解における大きなギャップと、MLLMsのさらなる進化の必要性を浮き彫りにしています。
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive 2D image/video understanding capabilities. However, there are no publicly standardized benchmarks to assess the abilities of MLLMs in understanding the 4D objects (3D objects with temporal evolution over time). In this paper, we introduce 4D-Bench, the first benchmark to evaluate the capabilities of MLLMs in 4D object understanding, featuring tasks in 4D object Question Answering (4D object QA) and 4D object captioning. 4D-Bench provides 4D objects with diverse categories, high-quality annotations, and tasks necessitating multi-view spatial-temporal understanding, different from existing 2D image/video-based benchmarks. With 4D-Bench, we evaluate a wide range of open-source and closed-source MLLMs. The results from the 4D object captioning experiment indicate that MLLMs generally exhibit weaker temporal understanding compared to their appearance understanding, notably, while open-source models approach closed-source performance in appearance understanding, they show larger performance gaps in temporal understanding. 4D object QA yields surprising findings: even with simple single-object videos, MLLMs perform poorly, with state-of-the-art GPT-4o achieving only 63\% accuracy compared to the human baseline of 91\%. These findings highlight a substantial gap in 4D object understanding and the need for further advancements in MLLMs.

Summary

AI-Generated Summary

PDF83March 31, 2025