ChatPaper.aiChatPaper

LGM: Modelo Gaussiano de Múltiplas Visões em Grande Escala para Criação de Conteúdo 3D de Alta Resolução

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

February 7, 2024
Autores: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI

Resumo

A criação de conteúdo 3D alcançou progressos significativos tanto em termos de qualidade quanto de velocidade. Embora os modelos feed-forward atuais possam produzir objetos 3D em segundos, sua resolução é limitada pela computação intensiva necessária durante o treinamento. Neste artigo, introduzimos o Large Multi-View Gaussian Model (LGM), uma nova estrutura projetada para gerar modelos 3D de alta resolução a partir de prompts de texto ou imagens de visão única. Nossas principais ideias são duas: 1) Representação 3D: Propomos características Gaussianas multi-visão como uma representação eficiente e poderosa, que pode então ser fundida para renderização diferenciável. 2) Backbone 3D: Apresentamos uma U-Net assimétrica como um backbone de alta capacidade operando em imagens multi-visão, que podem ser produzidas a partir de texto ou imagem de visão única utilizando modelos de difusão multi-visão. Experimentos extensivos demonstram a alta fidelidade e eficiência de nossa abordagem. Notavelmente, mantemos a velocidade rápida para gerar objetos 3D em até 5 segundos enquanto aumentamos a resolução de treinamento para 512, alcançando assim a geração de conteúdo 3D de alta resolução.
English
3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
PDF294February 7, 2026