LGM: Großes Multi-View-Gauß-Modell für die Erstellung hochauflösender 3D-Inhalte
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
February 7, 2024
Autoren: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI
Zusammenfassung
Die Erstellung von 3D-Inhalten hat sowohl in Bezug auf die Qualität als auch die Geschwindigkeit bedeutende Fortschritte erzielt. Obwohl aktuelle Feed-Forward-Modelle 3D-Objekte in Sekunden erzeugen können, ist ihre Auflösung durch den intensiven Rechenaufwand während des Trainings begrenzt. In diesem Artikel stellen wir das Large Multi-View Gaussian Model (LGM) vor, ein neuartiges Framework, das darauf ausgelegt ist, hochauflösende 3D-Modelle aus Textbeschreibungen oder Einzelbildern zu generieren. Unsere zentralen Erkenntnisse sind zweifach: 1) 3D-Darstellung: Wir schlagen Multi-View-Gauß-Features als eine effiziente und dennoch leistungsstarke Darstellung vor, die anschließend für differenzierbares Rendering fusioniert werden können. 2) 3D-Backbone: Wir präsentieren ein asymmetrisches U-Net als einen hochdurchsatzfähigen Backbone, der auf Multi-View-Bildern operiert, die durch die Nutzung von Multi-View-Diffusionsmodellen aus Text- oder Einzelbild-Eingaben erzeugt werden können. Umfangreiche Experimente demonstrieren die hohe Detailtreue und Effizienz unseres Ansatzes. Bemerkenswerterweise behalten wir die schnelle Geschwindigkeit bei, 3D-Objekte innerhalb von 5 Sekunden zu generieren, während wir die Trainingsauflösung auf 512 erhöhen und somit eine hochauflösende 3D-Inhaltserzeugung erreichen.
English
3D content creation has achieved significant progress in terms of both
quality and speed. Although current feed-forward models can produce 3D objects
in seconds, their resolution is constrained by the intensive computation
required during training. In this paper, we introduce Large Multi-View Gaussian
Model (LGM), a novel framework designed to generate high-resolution 3D models
from text prompts or single-view images. Our key insights are two-fold: 1) 3D
Representation: We propose multi-view Gaussian features as an efficient yet
powerful representation, which can then be fused together for differentiable
rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput
backbone operating on multi-view images, which can be produced from text or
single-view image input by leveraging multi-view diffusion models. Extensive
experiments demonstrate the high fidelity and efficiency of our approach.
Notably, we maintain the fast speed to generate 3D objects within 5 seconds
while boosting the training resolution to 512, thereby achieving
high-resolution 3D content generation.