ChatPaper.aiChatPaper

LLaVA-3D: Ein einfacher, aber effektiver Ansatz zur Stärkung von LMMs mit 3D-Bewusstsein

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

September 26, 2024
Autoren: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei Large Multimodal Models (LMMs) ihre Fähigkeiten in 2D-Visionsverständnisaufgaben erheblich verbessert, was es ihnen ermöglicht, Bilder und Videos effektiv zu verarbeiten und zu verstehen. Die Entwicklung von LMMs mit 3D-Bewusstsein für das Verständnis von 3D-Szenen wurde jedoch durch den Mangel an groß angelegten 3D-Vision-Sprach-Datensätzen und leistungsstarken 3D-Encodern behindert. In diesem Artikel stellen wir ein einfaches, aber effektives Framework namens LLaVA-3D vor. Durch die Nutzung der starken 2D-Verständnisvoraussetzungen von LLaVA passt unser LLaVA-3D LLaVA effizient für das Verständnis von 3D-Szenen an, ohne die 2D-Verständnisfähigkeiten zu beeinträchtigen. Um dies zu erreichen, verwenden wir eine einfache, aber effektive Darstellung, 3D Patch, der 2D CLIP Patch-Merkmale mit ihren entsprechenden Positionen im 3D-Raum verbindet. Durch die Integration der 3D Patches in 2D LMMs und die Verwendung einer gemeinsamen 2D- und 3D-Vision-Sprach-Anpassung erreichen wir eine einheitliche Architektur sowohl für das 2D-Bildverständnis als auch für das 3D-Szenenverständnis. Experimentelle Ergebnisse zeigen, dass LLaVA-3D 3,5-mal schneller konvergiert als bestehende 3D LMMs, wenn sie auf 3D-Vision-Sprach-Datensätzen trainiert werden. Darüber hinaus erzielt LLaVA-3D nicht nur eine Spitzenleistung bei verschiedenen 3D-Aufgaben, sondern behält auch vergleichbare 2D-Bildverständnis- und Vision-Sprach-Konversationsfähigkeiten wie LLaVA bei.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA.

Summary

AI-Generated Summary

PDF352November 16, 2024