ChatPaper.aiChatPaper

Wonder3D: Generazione di modelli 3D da una singola immagine utilizzando la diffusione cross-domain

Wonder3D: Single Image to 3D using Cross-Domain Diffusion

October 23, 2023
Autori: Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang
cs.AI

Abstract

In questo lavoro presentiamo Wonder3D, un metodo innovativo per generare in modo efficiente mesh testurizzate ad alta fedeltà a partire da immagini a singola vista. I metodi recenti basati su Score Distillation Sampling (SDS) hanno dimostrato il potenziale di ricostruire geometrie 3D da prior di diffusione 2D, ma tipicamente soffrono di un'ottimizzazione lenta per ogni forma e di geometrie inconsistenti. Al contrario, alcuni approcci producono direttamente informazioni 3D tramite inferenze veloci di rete, ma i loro risultati sono spesso di bassa qualità e privi di dettagli geometrici. Per migliorare in modo olistico la qualità, la coerenza e l'efficienza delle attività di conversione da immagine a 3D, proponiamo un modello di diffusione cross-domain che genera mappe normali multi-vista e le corrispondenti immagini a colori. Per garantire la coerenza, utilizziamo un meccanismo di attenzione cross-domain multi-vista che facilita lo scambio di informazioni tra diverse viste e modalità. Infine, introduciamo un algoritmo di fusione normale consapevole della geometria che estrae superfici di alta qualità dalle rappresentazioni 2D multi-vista. Le nostre valutazioni estensive dimostrano che il nostro metodo raggiunge risultati di ricostruzione di alta qualità, una generalizzazione robusta e un'efficienza ragionevolmente buona rispetto ai lavori precedenti.
English
In this work, we introduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Sampling (SDS) have shown the potential to recover 3D geometry from 2D diffusion priors, but they typically suffer from time-consuming per-shape optimization and inconsistent geometry. In contrast, certain works directly produce 3D information via fast network inferences, but their results are often of low quality and lack geometric details. To holistically improve the quality, consistency, and efficiency of image-to-3D tasks, we propose a cross-domain diffusion model that generates multi-view normal maps and the corresponding color images. To ensure consistency, we employ a multi-view cross-domain attention mechanism that facilitates information exchange across views and modalities. Lastly, we introduce a geometry-aware normal fusion algorithm that extracts high-quality surfaces from the multi-view 2D representations. Our extensive evaluations demonstrate that our method achieves high-quality reconstruction results, robust generalization, and reasonably good efficiency compared to prior works.
PDF224December 14, 2025