TexFusion: Sintesi di Texture 3D con Modelli di Diffusione di Immagini Guidati da Testo
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
October 20, 2023
Autori: Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin
cs.AI
Abstract
Presentiamo TexFusion (Texture Diffusion), un nuovo metodo per sintetizzare texture per geometrie 3D date, utilizzando modelli di diffusione di immagini su larga scala guidati da testo. A differenza dei lavori recenti che sfruttano modelli di diffusione testo-immagine 2D per distillare oggetti 3D attraverso un processo di ottimizzazione lento e fragile, TexFusion introduce una nuova tecnica di generazione 3D-consistente specificamente progettata per la sintesi di texture che impiega il campionamento regolare del modello di diffusione su diverse viste renderizzate in 2D. Nello specifico, sfruttiamo modelli di diffusione latente, applichiamo il denoiser del modello di diffusione su un insieme di render 2D dell'oggetto 3D e aggregiamo le diverse previsioni di denoising su una mappa di texture latente condivisa. Le texture RGB finali vengono prodotte ottimizzando un campo di colore neurale intermedio sulle decodifiche dei render 2D della texture latente. Validiamo approfonditamente TexFusion e dimostriamo che possiamo generare in modo efficiente texture diverse, di alta qualità e globalmente coerenti. Raggiungiamo prestazioni all'avanguardia nella sintesi di texture guidata da testo utilizzando solo modelli di diffusione di immagini, evitando le insidie dei precedenti metodi basati su distillazione. Il condizionamento testuale offre un controllo dettagliato e non ci affidiamo a nessuna texture 3D di riferimento per l'addestramento. Ciò rende il nostro metodo versatile e applicabile a un'ampia gamma di geometrie e tipi di texture. Speriamo che TexFusion possa avanzare la texturizzazione basata su IA di asset 3D per applicazioni nella realtà virtuale, nel design di giochi, nella simulazione e altro ancora.
English
We present TexFusion (Texture Diffusion), a new method to synthesize textures
for given 3D geometries, using large-scale text-guided image diffusion models.
In contrast to recent works that leverage 2D text-to-image diffusion models to
distill 3D objects using a slow and fragile optimization process, TexFusion
introduces a new 3D-consistent generation technique specifically designed for
texture synthesis that employs regular diffusion model sampling on different 2D
rendered views. Specifically, we leverage latent diffusion models, apply the
diffusion model's denoiser on a set of 2D renders of the 3D object, and
aggregate the different denoising predictions on a shared latent texture map.
Final output RGB textures are produced by optimizing an intermediate neural
color field on the decodings of 2D renders of the latent texture. We thoroughly
validate TexFusion and show that we can efficiently generate diverse, high
quality and globally coherent textures. We achieve state-of-the-art text-guided
texture synthesis performance using only image diffusion models, while avoiding
the pitfalls of previous distillation-based methods. The text-conditioning
offers detailed control and we also do not rely on any ground truth 3D textures
for training. This makes our method versatile and applicable to a broad range
of geometry and texture types. We hope that TexFusion will advance AI-based
texturing of 3D assets for applications in virtual reality, game design,
simulation, and more.