One-2-3-45: Qualquer Imagem Única para Malha 3D em 45 Segundos sem Otimização por Forma

Resumo

A reconstrução 3D a partir de uma única imagem é uma tarefa importante, mas desafiadora, que requer um conhecimento extenso do nosso mundo natural. Muitos métodos existentes resolvem esse problema otimizando um campo de radiação neural sob a orientação de modelos de difusão 2D, mas sofrem com tempo de otimização prolongado, resultados inconsistentes em 3D e geometria deficiente. Neste trabalho, propomos um método inovador que utiliza uma única imagem de qualquer objeto como entrada e gera uma malha 3D texturizada de 360 graus em uma única passagem direta. Dada uma única imagem, primeiro usamos um modelo de difusão 2D condicionado por visão, o Zero123, para gerar imagens de múltiplas perspectivas para a visão de entrada e, em seguida, buscamos elevá-las ao espaço 3D. Como os métodos tradicionais de reconstrução lutam com previsões inconsistentes de múltiplas perspectivas, construímos nosso módulo de reconstrução 3D sobre um método de reconstrução de superfície neural generalizável baseado em SDF e propomos várias estratégias críticas de treinamento para permitir a reconstrução de malhas de 360 graus. Sem otimizações custosas, nosso método reconstrói formas 3D em um tempo significativamente menor do que os métodos existentes. Além disso, nosso método favorece uma geometria melhor, gera resultados mais consistentes em 3D e adere mais de perto à imagem de entrada. Avaliamos nossa abordagem tanto em dados sintéticos quanto em imagens do mundo real e demonstramos sua superioridade em termos de qualidade da malha e tempo de execução. Além disso, nossa abordagem pode suportar perfeitamente a tarefa de texto-para-3D ao se integrar com modelos de difusão texto-para-imagem prontamente disponíveis.

English

Single image 3D reconstruction is an important but challenging task that requires extensive knowledge of our natural world. Many existing methods solve this problem by optimizing a neural radiance field under the guidance of 2D diffusion models but suffer from lengthy optimization time, 3D inconsistency results, and poor geometry. In this work, we propose a novel method that takes a single image of any object as input and generates a full 360-degree 3D textured mesh in a single feed-forward pass. Given a single image, we first use a view-conditioned 2D diffusion model, Zero123, to generate multi-view images for the input view, and then aim to lift them up to 3D space. Since traditional reconstruction methods struggle with inconsistent multi-view predictions, we build our 3D reconstruction module upon an SDF-based generalizable neural surface reconstruction method and propose several critical training strategies to enable the reconstruction of 360-degree meshes. Without costly optimizations, our method reconstructs 3D shapes in significantly less time than existing methods. Moreover, our method favors better geometry, generates more 3D consistent results, and adheres more closely to the input image. We evaluate our approach on both synthetic data and in-the-wild images and demonstrate its superiority in terms of both mesh quality and runtime. In addition, our approach can seamlessly support the text-to-3D task by integrating with off-the-shelf text-to-image diffusion models.

One-2-3-45: Qualquer Imagem Única para Malha 3D em 45 Segundos sem Otimização por Forma

One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

Resumo

Support