Magic123: Geração de Objetos 3D de Alta Qualidade a Partir de uma Única Imagem Utilizando Priors de Difusão 2D e 3D

Resumo

Apresentamos o Magic123, uma abordagem em duas etapas, de grosseira a refinada, para a geração de malhas 3D de alta qualidade e texturizadas a partir de uma única imagem não posada em ambientes naturais, utilizando tanto priors 2D quanto 3D. Na primeira etapa, otimizamos um campo de radiação neural para produzir uma geometria grosseira. Na segunda etapa, adotamos uma representação de malha diferenciável e eficiente em memória para gerar uma malha de alta resolução com uma textura visualmente atraente. Em ambas as etapas, o conteúdo 3D é aprendido por meio de supervisão da vista de referência e vistas novas guiadas por uma combinação de priors de difusão 2D e 3D. Introduzimos um único parâmetro de compensação entre os priors 2D e 3D para controlar a exploração (mais imaginativa) e a exploração (mais precisa) da geometria gerada. Além disso, empregamos inversão textual e regularização de profundidade monocular para incentivar aparências consistentes entre as vistas e prevenir soluções degeneradas, respectivamente. O Magic123 demonstra uma melhoria significativa em relação às técnicas anteriores de conversão de imagem para 3D, conforme validado por extensos experimentos em benchmarks sintéticos e diversas imagens do mundo real. Nosso código, modelos e ativos 3D gerados estão disponíveis em https://github.com/guochengqian/Magic123.

English

We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.

Magic123: Geração de Objetos 3D de Alta Qualidade a Partir de uma Única Imagem Utilizando Priors de Difusão 2D e 3D

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

Resumo

Support