Magic-Boost: Potenciación de la Generación 3D con Difusión Condicionada por Múltiples Vistas
Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion
April 9, 2024
Autores: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
cs.AI
Resumen
Aprovechando el rápido desarrollo de los modelos de difusión 2D, la creación de contenido 3D ha logrado avances significativos recientemente. Una solución prometedora implica el ajuste fino de modelos de difusión 2D preentrenados para aprovechar su capacidad de producir imágenes multi-vista, que luego se transforman en modelos 3D precisos mediante métodos como fast-NeRFs o modelos de reconstrucción a gran escala. Sin embargo, debido a la persistencia de inconsistencias y la resolución generada limitada, los resultados de generación de tales métodos aún carecen de texturas intrincadas y geometrías complejas. Para resolver este problema, proponemos Magic-Boost, un modelo de difusión condicionado multi-vista que refina significativamente los resultados generativos iniciales mediante un breve período de optimización SDS (sim15min). En comparación con los modelos de difusión basados en texto o en una sola imagen, Magic-Boost exhibe una capacidad robusta para generar imágenes con alta consistencia a partir de imágenes multi-vista pseudo-sintetizadas. Proporciona una guía SDS precisa que se alinea bien con la identidad de las imágenes de entrada, enriqueciendo los detalles locales tanto en la geometría como en la textura de los resultados generativos iniciales. Experimentos extensos muestran que Magic-Boost mejora considerablemente las entradas iniciales y genera activos 3D de alta calidad con ricos detalles geométricos y texturales. (Página del proyecto: https://magic-research.github.io/magic-boost/)
English
Benefiting from the rapid development of 2D diffusion models, 3D content
creation has made significant progress recently. One promising solution
involves the fine-tuning of pre-trained 2D diffusion models to harness their
capacity for producing multi-view images, which are then lifted into accurate
3D models via methods like fast-NeRFs or large reconstruction models. However,
as inconsistency still exists and limited generated resolution, the generation
results of such methods still lack intricate textures and complex geometries.
To solve this problem, we propose Magic-Boost, a multi-view conditioned
diffusion model that significantly refines coarse generative results through a
brief period of SDS optimization (sim15min). Compared to the previous text
or single image based diffusion models, Magic-Boost exhibits a robust
capability to generate images with high consistency from pseudo synthesized
multi-view images. It provides precise SDS guidance that well aligns with the
identity of the input images, enriching the local detail in both geometry and
texture of the initial generative results. Extensive experiments show
Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D
assets with rich geometric and textural details. (Project Page:
https://magic-research.github.io/magic-boost/)Summary
AI-Generated Summary