Magic-Boost: Impulsionando a Geração 3D com Difusão Condicionada por Múltiplas Visões
Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion
April 9, 2024
Autores: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
cs.AI
Resumo
Beneficiando-se do rápido desenvolvimento dos modelos de difusão 2D, a criação de conteúdo 3D tem feito progressos significativos recentemente. Uma solução promissora envolve o ajuste fino de modelos de difusão 2D pré-treinados para aproveitar sua capacidade de produzir imagens multi-visão, que são então convertidas em modelos 3D precisos por meio de métodos como fast-NeRFs ou grandes modelos de reconstrução. No entanto, como ainda existem inconsistências e a resolução gerada é limitada, os resultados gerados por esses métodos ainda carecem de texturas intrincadas e geometrias complexas. Para resolver esse problema, propomos o Magic-Boost, um modelo de difusão condicionado a multi-visão que refina significativamente os resultados gerativos grosseiros por meio de um breve período de otimização SDS (sim15min). Comparado aos modelos de difusão baseados em texto ou imagem única anteriores, o Magic-Boost exibe uma capacidade robusta de gerar imagens com alta consistência a partir de imagens multi-visão pseudo-sintetizadas. Ele fornece uma orientação SDS precisa que se alinha bem com a identidade das imagens de entrada, enriquecendo os detalhes locais tanto na geometria quanto na textura dos resultados gerativos iniciais. Experimentos extensivos mostram que o Magic-Boost melhora significativamente as entradas grosseiras e gera ativos 3D de alta qualidade com ricos detalhes geométricos e texturais. (Página do Projeto: https://magic-research.github.io/magic-boost/)
English
Benefiting from the rapid development of 2D diffusion models, 3D content
creation has made significant progress recently. One promising solution
involves the fine-tuning of pre-trained 2D diffusion models to harness their
capacity for producing multi-view images, which are then lifted into accurate
3D models via methods like fast-NeRFs or large reconstruction models. However,
as inconsistency still exists and limited generated resolution, the generation
results of such methods still lack intricate textures and complex geometries.
To solve this problem, we propose Magic-Boost, a multi-view conditioned
diffusion model that significantly refines coarse generative results through a
brief period of SDS optimization (sim15min). Compared to the previous text
or single image based diffusion models, Magic-Boost exhibits a robust
capability to generate images with high consistency from pseudo synthesized
multi-view images. It provides precise SDS guidance that well aligns with the
identity of the input images, enriching the local detail in both geometry and
texture of the initial generative results. Extensive experiments show
Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D
assets with rich geometric and textural details. (Project Page:
https://magic-research.github.io/magic-boost/)