ChatPaper.aiChatPaper

LGM: Groot Multi-View Gaussiaans Model voor het Maken van Hoogwaardige 3D-Inhoud

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

February 7, 2024
Auteurs: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI

Samenvatting

3D-contentcreatie heeft aanzienlijke vooruitgang geboekt op het gebied van zowel kwaliteit als snelheid. Hoewel huidige feed-forward-modellen in enkele seconden 3D-objecten kunnen produceren, wordt hun resolutie beperkt door de intensieve rekenkracht die tijdens de training vereist is. In dit artikel introduceren we het Large Multi-View Gaussian Model (LGM), een nieuw framework ontworpen om hoogwaardige 3D-modellen te genereren vanuit tekstprompts of afbeeldingen met één weergave. Onze belangrijkste inzichten zijn tweeledig: 1) 3D-representatie: We stellen multi-view Gaussiaanse kenmerken voor als een efficiënte maar krachtige representatie, die vervolgens samengevoegd kunnen worden voor differentieerbaar renderen. 2) 3D-backbone: We introduceren een asymmetrische U-Net als een hoogdoorvoer-backbone die werkt op multi-view afbeeldingen, die gegenereerd kunnen worden vanuit tekst of een afbeelding met één weergave door gebruik te maken van multi-view diffusiemodellen. Uitgebreide experimenten tonen de hoge kwaliteit en efficiëntie van onze aanpak aan. Opmerkelijk is dat we de snelle snelheid behouden om 3D-objecten binnen 5 seconden te genereren, terwijl we de trainingsresolutie verhogen naar 512, waardoor hoogwaardige 3D-contentgeneratie wordt bereikt.
English
3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
PDF294February 7, 2026