ChatPaper.aiChatPaper

4D-Bench: 4차원 객체 이해를 위한 다중 모달 대형 언어 모델 벤치마킹

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

March 22, 2025
저자: Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 2D 이미지/비디오 이해 능력에서 인상적인 성과를 보여왔습니다. 그러나 4D 객체(시간에 따라 진화하는 3D 객체)를 이해하는 MLLMs의 능력을 평가하기 위한 공개적으로 표준화된 벤치마크는 존재하지 않습니다. 본 논문에서는 4D 객체 이해 능력을 평가하기 위한 첫 번째 벤치마크인 4D-Bench를 소개합니다. 4D-Bench는 4D 객체 질의응답(4D object QA)과 4D 객체 캡셔닝 작업을 포함하며, 다양한 카테고리의 4D 객체, 고품질의 주석, 그리고 다중 시점의 시공간적 이해를 요구하는 작업을 제공합니다. 이는 기존의 2D 이미지/비디오 기반 벤치마크와 차별화됩니다. 4D-Bench를 통해 오픈소스 및 클로즈드소스 MLLMs를 광범위하게 평가했습니다. 4D 객체 캡셔닝 실험 결과, MLLMs는 일반적으로 외형 이해에 비해 시간적 이해가 약한 것으로 나타났으며, 특히 오픈소스 모델들은 외형 이해에서는 클로즈드소스 모델에 근접한 성능을 보였지만, 시간적 이해에서는 더 큰 성능 격차를 보였습니다. 4D 객체 QA에서는 놀라운 발견이 있었습니다: 단순한 단일 객체 비디오에서도 MLLMs의 성능이 저조했으며, 최첨단 GPT-4o는 인간 기준 91%에 비해 63%의 정확도만 달성했습니다. 이러한 결과는 4D 객체 이해에서 상당한 격차가 존재하며, MLLMs의 추가적인 발전이 필요함을 강조합니다.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive 2D image/video understanding capabilities. However, there are no publicly standardized benchmarks to assess the abilities of MLLMs in understanding the 4D objects (3D objects with temporal evolution over time). In this paper, we introduce 4D-Bench, the first benchmark to evaluate the capabilities of MLLMs in 4D object understanding, featuring tasks in 4D object Question Answering (4D object QA) and 4D object captioning. 4D-Bench provides 4D objects with diverse categories, high-quality annotations, and tasks necessitating multi-view spatial-temporal understanding, different from existing 2D image/video-based benchmarks. With 4D-Bench, we evaluate a wide range of open-source and closed-source MLLMs. The results from the 4D object captioning experiment indicate that MLLMs generally exhibit weaker temporal understanding compared to their appearance understanding, notably, while open-source models approach closed-source performance in appearance understanding, they show larger performance gaps in temporal understanding. 4D object QA yields surprising findings: even with simple single-object videos, MLLMs perform poorly, with state-of-the-art GPT-4o achieving only 63\% accuracy compared to the human baseline of 91\%. These findings highlight a substantial gap in 4D object understanding and the need for further advancements in MLLMs.

Summary

AI-Generated Summary

PDF83March 31, 2025