ChatPaper.aiChatPaper

LGM: Modelo Gaussiano Multivista a Gran Escala para la Creación de Contenido 3D de Alta Resolución

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

February 7, 2024
Autores: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI

Resumen

La creación de contenido 3D ha logrado avances significativos tanto en calidad como en velocidad. Aunque los modelos de propagación directa actuales pueden producir objetos 3D en cuestión de segundos, su resolución está limitada por el intenso cómputo requerido durante el entrenamiento. En este artículo, presentamos el Large Multi-View Gaussian Model (LGM), un marco novedoso diseñado para generar modelos 3D de alta resolución a partir de indicaciones de texto o imágenes de una sola vista. Nuestras ideas clave son dos: 1) Representación 3D: Proponemos características Gaussianas multi-vista como una representación eficiente pero potente, que luego pueden fusionarse para un renderizado diferenciable. 2) Backbone 3D: Presentamos una U-Net asimétrica como un backbone de alto rendimiento que opera en imágenes multi-vista, las cuales pueden generarse a partir de texto o una imagen de una sola vista utilizando modelos de difusión multi-vista. Experimentos exhaustivos demuestran la alta fidelidad y eficiencia de nuestro enfoque. Destacamos que mantenemos la velocidad rápida para generar objetos 3D en menos de 5 segundos, mientras aumentamos la resolución de entrenamiento a 512, logrando así la generación de contenido 3D de alta resolución.
English
3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
PDF293December 15, 2024