ChatPaper.aiChatPaper

4D-Bench: Avaliação de Modelos de Linguagem Multimodais de Grande Escala para Compreensão de Objetos 4D

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

March 22, 2025
Autores: Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes de compreensão de imagens/vídeos 2D. No entanto, não há benchmarks padronizados publicamente disponíveis para avaliar as habilidades dos MLLMs na compreensão de objetos 4D (objetos 3D com evolução temporal ao longo do tempo). Neste artigo, apresentamos o 4D-Bench, o primeiro benchmark para avaliar as capacidades dos MLLMs na compreensão de objetos 4D, com tarefas de Resposta a Perguntas sobre Objetos 4D (4D object QA) e legendagem de objetos 4D. O 4D-Bench oferece objetos 4D com diversas categorias, anotações de alta qualidade e tarefas que exigem compreensão espaço-temporal multiview, diferindo dos benchmarks existentes baseados em imagens/vídeos 2D. Com o 4D-Bench, avaliamos uma ampla gama de MLLMs de código aberto e proprietários. Os resultados do experimento de legendagem de objetos 4D indicam que os MLLMs geralmente exibem uma compreensão temporal mais fraca em comparação com sua compreensão de aparência, destacando que, embora os modelos de código aberto se aproximem do desempenho dos modelos proprietários na compreensão de aparência, eles mostram lacunas maiores na compreensão temporal. O 4D object QA revela descobertas surpreendentes: mesmo com vídeos simples de um único objeto, os MLLMs têm um desempenho ruim, com o GPT-4o, estado da arte, alcançando apenas 63% de precisão em comparação com a linha de base humana de 91%. Essas descobertas destacam uma lacuna substancial na compreensão de objetos 4D e a necessidade de avanços adicionais nos MLLMs.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive 2D image/video understanding capabilities. However, there are no publicly standardized benchmarks to assess the abilities of MLLMs in understanding the 4D objects (3D objects with temporal evolution over time). In this paper, we introduce 4D-Bench, the first benchmark to evaluate the capabilities of MLLMs in 4D object understanding, featuring tasks in 4D object Question Answering (4D object QA) and 4D object captioning. 4D-Bench provides 4D objects with diverse categories, high-quality annotations, and tasks necessitating multi-view spatial-temporal understanding, different from existing 2D image/video-based benchmarks. With 4D-Bench, we evaluate a wide range of open-source and closed-source MLLMs. The results from the 4D object captioning experiment indicate that MLLMs generally exhibit weaker temporal understanding compared to their appearance understanding, notably, while open-source models approach closed-source performance in appearance understanding, they show larger performance gaps in temporal understanding. 4D object QA yields surprising findings: even with simple single-object videos, MLLMs perform poorly, with state-of-the-art GPT-4o achieving only 63\% accuracy compared to the human baseline of 91\%. These findings highlight a substantial gap in 4D object understanding and the need for further advancements in MLLMs.

Summary

AI-Generated Summary

PDF83March 31, 2025