LGM: Modello Gaussiano Multi-Vista su Grande Scala per la Creazione di Contenuti 3D ad Alta Risoluzione
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
February 7, 2024
Autori: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI
Abstract
La creazione di contenuti 3D ha compiuto progressi significativi sia in termini di qualità che di velocità. Sebbene i modelli feed-forward attuali possano produrre oggetti 3D in pochi secondi, la loro risoluzione è limitata dall'intenso calcolo richiesto durante l'addestramento. In questo articolo, introduciamo il Large Multi-View Gaussian Model (LGM), un nuovo framework progettato per generare modelli 3D ad alta risoluzione a partire da prompt testuali o immagini a singola vista. Le nostre intuizioni chiave sono due: 1) Rappresentazione 3D: Proponiamo le caratteristiche gaussiane multi-vista come una rappresentazione efficiente ma potente, che può poi essere fusa per il rendering differenziabile. 2) Backbone 3D: Presentiamo una U-Net asimmetrica come backbone ad alta produttività che opera su immagini multi-vista, le quali possono essere generate da input testuali o immagini a singola vista sfruttando modelli di diffusione multi-vista. Esperimenti estensivi dimostrano l'alta fedeltà e l'efficienza del nostro approccio. In particolare, manteniamo la velocità di generazione di oggetti 3D entro 5 secondi, aumentando al contempo la risoluzione di addestramento a 512, raggiungendo così la generazione di contenuti 3D ad alta risoluzione.
English
3D content creation has achieved significant progress in terms of both
quality and speed. Although current feed-forward models can produce 3D objects
in seconds, their resolution is constrained by the intensive computation
required during training. In this paper, we introduce Large Multi-View Gaussian
Model (LGM), a novel framework designed to generate high-resolution 3D models
from text prompts or single-view images. Our key insights are two-fold: 1) 3D
Representation: We propose multi-view Gaussian features as an efficient yet
powerful representation, which can then be fused together for differentiable
rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput
backbone operating on multi-view images, which can be produced from text or
single-view image input by leveraging multi-view diffusion models. Extensive
experiments demonstrate the high fidelity and efficiency of our approach.
Notably, we maintain the fast speed to generate 3D objects within 5 seconds
while boosting the training resolution to 512, thereby achieving
high-resolution 3D content generation.