Wonder3D: Generación de 3D a partir de una sola imagen utilizando difusión cruzada de dominios

Wonder3D: Single Image to 3D using Cross-Domain Diffusion

October 23, 2023
Autores: Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang
cs.AI

Resumen

En este trabajo presentamos Wonder3D, un método novedoso para generar eficientemente mallas texturizadas de alta fidelidad a partir de imágenes de vista única. Métodos recientes basados en Muestreo por Distilación de Puntuación (SDS) han demostrado el potencial para recuperar geometría 3D a partir de priores de difusión 2D, pero generalmente sufren de una optimización lenta por forma y geometría inconsistente. En contraste, ciertos trabajos producen directamente información 3D mediante inferencias rápidas de redes, pero sus resultados suelen ser de baja calidad y carecen de detalles geométricos. Para mejorar integralmente la calidad, consistencia y eficiencia de las tareas de imagen-a-3D, proponemos un modelo de difusión entre dominios que genera mapas normales multivista y las imágenes de color correspondientes. Para garantizar la consistencia, empleamos un mecanismo de atención entre dominios multivista que facilita el intercambio de información entre vistas y modalidades. Por último, introducimos un algoritmo de fusión normal con conciencia geométrica que extrae superficies de alta calidad a partir de las representaciones 2D multivista. Nuestras evaluaciones exhaustivas demuestran que nuestro método logra resultados de reconstrucción de alta calidad, generalización robusta y una eficiencia razonablemente buena en comparación con trabajos anteriores.
English
In this work, we introduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Sampling (SDS) have shown the potential to recover 3D geometry from 2D diffusion priors, but they typically suffer from time-consuming per-shape optimization and inconsistent geometry. In contrast, certain works directly produce 3D information via fast network inferences, but their results are often of low quality and lack geometric details. To holistically improve the quality, consistency, and efficiency of image-to-3D tasks, we propose a cross-domain diffusion model that generates multi-view normal maps and the corresponding color images. To ensure consistency, we employ a multi-view cross-domain attention mechanism that facilitates information exchange across views and modalities. Lastly, we introduce a geometry-aware normal fusion algorithm that extracts high-quality surfaces from the multi-view 2D representations. Our extensive evaluations demonstrate that our method achieves high-quality reconstruction results, robust generalization, and reasonably good efficiency compared to prior works.
PDF224December 15, 2024