LLaVA-3D: Простой, но эффективный способ придания LMMs трехмерного осознания.
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
September 26, 2024
Авторы: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI
Аннотация
Недавние достижения в области крупных мультимодальных моделей (Large Multimodal Models, LMMs) значительно улучшили их профессионализм в задачах 2D визуального понимания, позволяя им эффективно обрабатывать и понимать изображения и видео. Однако развитие LMMs с осознанием 3D для понимания трехмерных сцен затруднено из-за отсутствия масштабных наборов данных 3D видео-языка и мощных 3D кодировщиков. В данной статье мы представляем простую, но эффективную структуру под названием LLaVA-3D. Используя сильные априорные знания 2D понимания из LLaVA, наш LLaVA-3D эффективно адаптирует LLaVA для понимания трехмерных сцен без ущерба для возможностей 2D понимания. Для достижения этой цели мы используем простое, но эффективное представление, 3D Патч, который соединяет признаки 2D CLIP патчей с их соответствующими позициями в трехмерном пространстве. Интегрируя 3D Патчи в 2D LMMs и используя совместную настройку инструкций 2D и 3D видео-языка, мы устанавливаем единую архитектуру как для понимания 2D изображений, так и для понимания трехмерных сцен. Экспериментальные результаты показывают, что LLaVA-3D сходится в 3,5 раза быстрее, чем существующие 3D LMMs при обучении на наборах данных 3D видео-языка. Более того, LLaVA-3D не только достигает передового качества в различных задачах 3D, но также сохраняет сравнимые возможности понимания 2D изображений и видео-языкового общения с LLaVA.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced
their proficiency in 2D visual understanding tasks, enabling them to
effectively process and understand images and videos. However, the development
of LMMs with 3D-awareness for 3D scene understanding has been hindered by the
lack of large-scale 3D vision-language datasets and powerful 3D encoders. In
this paper, we introduce a simple yet effective framework called LLaVA-3D.
Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D
efficiently adapts LLaVA for 3D scene understanding without compromising 2D
understanding capabilities. To achieve this, we employ a simple yet effective
representation, 3D Patch, which connects 2D CLIP patch features with their
corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs
and employing joint 2D and 3D vision-language instruction tuning, we establish
a unified architecture for both 2D image understanding and 3D scene
understanding. Experimental results show that LLaVA-3D converges 3.5x faster
than existing 3D LMMs when trained on 3D vision-language datasets. Moreover,
LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks
but also maintains comparable 2D image understanding and vision-language
conversation capabilities with LLaVA.Summary
AI-Generated Summary