Adattatore Generico per Diffusione 3D Utilizzando l'Editing Controllato Multi-Vista
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing
March 18, 2024
Autori: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI
Abstract
La sintesi di oggetti 3D in dominio aperto è rimasta indietro rispetto alla sintesi di immagini a causa della limitata disponibilità di dati e della maggiore complessità computazionale. Per colmare questa lacuna, lavori recenti hanno esplorato la diffusione multi-vista, ma spesso risultano carenti in termini di coerenza 3D, qualità visiva o efficienza. Questo articolo propone MVEdit, che funge da controparte 3D di SDEdit, impiegando il campionamento ancestrale per denoisare congiuntamente immagini multi-vista e produrre mesh testurizzate di alta qualità. Basato su modelli di diffusione 2D preesistenti, MVEdit raggiunge la coerenza 3D attraverso un Adapter 3D che non richiede addestramento, il quale eleva le viste 2D dell'ultimo passo temporale in una rappresentazione 3D coerente, per poi condizionare le viste 2D del passo successivo utilizzando viste renderizzate, senza compromettere la qualità visiva. Con un tempo di inferenza di soli 2-5 minuti, questo framework ottiene un migliore compromesso tra qualità e velocità rispetto alla distillazione del punteggio. MVEdit è altamente versatile ed estendibile, con un'ampia gamma di applicazioni che includono la generazione da testo/immagine a 3D, l'editing da 3D a 3D e la sintesi di texture di alta qualità. In particolare, le valutazioni dimostrano prestazioni all'avanguardia sia nei compiti di generazione da immagine a 3D che nella generazione di texture guidata da testo. Inoltre, introduciamo un metodo per il fine-tuning di modelli di diffusione latente 2D su piccoli dataset 3D con risorse limitate, consentendo una rapida inizializzazione da testo a 3D a bassa risoluzione.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due
to limited data and higher computational complexity. To bridge this gap, recent
works have investigated multi-view diffusion but often fall short in either 3D
consistency, visual quality, or efficiency. This paper proposes MVEdit, which
functions as a 3D counterpart of SDEdit, employing ancestral sampling to
jointly denoise multi-view images and output high-quality textured meshes.
Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency
through a training-free 3D Adapter, which lifts the 2D views of the last
timestep into a coherent 3D representation, then conditions the 2D views of the
next timestep using rendered views, without uncompromising visual quality. With
an inference time of only 2-5 minutes, this framework achieves better trade-off
between quality and speed than score distillation. MVEdit is highly versatile
and extendable, with a wide range of applications including text/image-to-3D
generation, 3D-to-3D editing, and high-quality texture synthesis. In
particular, evaluations demonstrate state-of-the-art performance in both
image-to-3D and text-guided texture generation tasks. Additionally, we
introduce a method for fine-tuning 2D latent diffusion models on small 3D
datasets with limited resources, enabling fast low-resolution text-to-3D
initialization.