ChatPaper.aiChatPaper

LGM : Modèle Gaussien Multi-Vues à Grande Échelle pour la Création de Contenu 3D Haute Résolution

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

February 7, 2024
Auteurs: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI

Résumé

La création de contenu 3D a réalisé des progrès significatifs en termes de qualité et de rapidité. Bien que les modèles feed-forward actuels puissent produire des objets 3D en quelques secondes, leur résolution est limitée par le calcul intensif requis pendant l'entraînement. Dans cet article, nous présentons le Large Multi-View Gaussian Model (LGM), un nouveau cadre conçu pour générer des modèles 3D haute résolution à partir de prompts textuels ou d'images à vue unique. Nos principales contributions sont doubles : 1) Représentation 3D : Nous proposons des caractéristiques gaussiennes multi-vues comme une représentation à la fois efficace et puissante, qui peuvent ensuite être fusionnées pour un rendu différentiable. 2) Architecture 3D : Nous introduisons un U-Net asymétrique comme backbone à haut débit opérant sur des images multi-vues, qui peuvent être produites à partir d'un texte ou d'une image à vue unique en exploitant des modèles de diffusion multi-vues. Des expériences approfondies démontrent la haute fidélité et l'efficacité de notre approche. En particulier, nous maintenons la rapidité de génération d'objets 3D en moins de 5 secondes tout en augmentant la résolution d'entraînement à 512, permettant ainsi une génération de contenu 3D haute résolution.
English
3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
PDF293December 15, 2024