ViewDiff: Generazione di Immagini 3D-Consistenti con Modelli Text-to-Image
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
March 4, 2024
Autori: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI
Abstract
La generazione di asset 3D sta attirando un'enorme attenzione, ispirata dal recente successo della creazione di contenuti 2D guidati da testo. I metodi esistenti di testo-a-3D utilizzano modelli di diffusione testo-immagine preaddestrati in un problema di ottimizzazione o li perfezionano su dati sintetici, il che spesso si traduce in oggetti 3D non fotorealistici e privi di sfondi. In questo articolo, presentiamo un metodo che sfrutta i modelli testo-immagine preaddestrati come prior e apprende a generare immagini multi-vista in un singolo processo di denoising a partire da dati del mondo reale. Nello specifico, proponiamo di integrare il rendering volumetrico 3D e i livelli di attenzione cross-frame in ogni blocco della rete U-Net esistente del modello testo-immagine. Inoltre, progettiamo una generazione autoregressiva che rende immagini più coerenti in 3D da qualsiasi punto di vista. Addestriamo il nostro modello su dataset del mondo reale di oggetti e dimostriamo la sua capacità di generare istanze con una varietà di forme e texture di alta qualità in ambientazioni autentiche. Rispetto ai metodi esistenti, i risultati generati dal nostro metodo sono coerenti e presentano una qualità visiva superiore (-30% FID, -37% KID).
English
3D asset generation is getting massive amounts of attention, inspired by the
recent success of text-guided 2D content creation. Existing text-to-3D methods
use pretrained text-to-image diffusion models in an optimization problem or
fine-tune them on synthetic data, which often results in non-photorealistic 3D
objects without backgrounds. In this paper, we present a method that leverages
pretrained text-to-image models as a prior, and learn to generate multi-view
images in a single denoising process from real-world data. Concretely, we
propose to integrate 3D volume-rendering and cross-frame-attention layers into
each block of the existing U-Net network of the text-to-image model. Moreover,
we design an autoregressive generation that renders more 3D-consistent images
at any viewpoint. We train our model on real-world datasets of objects and
showcase its capabilities to generate instances with a variety of high-quality
shapes and textures in authentic surroundings. Compared to the existing
methods, the results generated by our method are consistent, and have favorable
visual quality (-30% FID, -37% KID).