One-2-3-45++: Geração Rápida de Objetos 3D a partir de uma Única Imagem com Geração Consistente de Múltiplas Visões e Difusão 3D
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion
November 14, 2023
Autores: Minghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, Hao Su
cs.AI
Resumo
Os recentes avanços na geração de objetos 3D em mundos abertos têm sido notáveis, com métodos de imagem-para-3D oferecendo um controle refinado superior em comparação com suas contrapartes texto-para-3D. No entanto, a maioria dos modelos existentes não consegue fornecer simultaneamente velocidades rápidas de geração e alta fidelidade às imagens de entrada - duas características essenciais para aplicações práticas. Neste artigo, apresentamos o One-2-3-45++, um método inovador que transforma uma única imagem em uma malha 3D texturizada detalhada em aproximadamente um minuto. Nossa abordagem visa aproveitar ao máximo o conhecimento extensivo incorporado em modelos de difusão 2D e prioridades de dados 3D valiosos, porém limitados. Isso é alcançado inicialmente ajustando um modelo de difusão 2D para a geração consistente de imagens multi-visão, seguido pela elevação dessas imagens para 3D com a ajuda de modelos de difusão 3D nativos condicionados por multi-visão. Avaliações experimentais extensivas demonstram que nosso método pode produzir ativos 3D de alta qualidade e diversificados que espelham de perto a imagem de entrada original. Nossa página do projeto: https://sudo-ai-3d.github.io/One2345plus_page.
English
Recent advancements in open-world 3D object generation have been remarkable,
with image-to-3D methods offering superior fine-grained control over their
text-to-3D counterparts. However, most existing models fall short in
simultaneously providing rapid generation speeds and high fidelity to input
images - two features essential for practical applications. In this paper, we
present One-2-3-45++, an innovative method that transforms a single image into
a detailed 3D textured mesh in approximately one minute. Our approach aims to
fully harness the extensive knowledge embedded in 2D diffusion models and
priors from valuable yet limited 3D data. This is achieved by initially
finetuning a 2D diffusion model for consistent multi-view image generation,
followed by elevating these images to 3D with the aid of multi-view conditioned
3D native diffusion models. Extensive experimental evaluations demonstrate that
our method can produce high-quality, diverse 3D assets that closely mirror the
original input image. Our project webpage:
https://sudo-ai-3d.github.io/One2345plus_page.