Adattatore Generico per Diffusione 3D Utilizzando l'Editing Controllato Multi-Vista

Abstract

La sintesi di oggetti 3D in dominio aperto è rimasta indietro rispetto alla sintesi di immagini a causa della limitata disponibilità di dati e della maggiore complessità computazionale. Per colmare questa lacuna, lavori recenti hanno esplorato la diffusione multi-vista, ma spesso risultano carenti in termini di coerenza 3D, qualità visiva o efficienza. Questo articolo propone MVEdit, che funge da controparte 3D di SDEdit, impiegando il campionamento ancestrale per denoisare congiuntamente immagini multi-vista e produrre mesh testurizzate di alta qualità. Basato su modelli di diffusione 2D preesistenti, MVEdit raggiunge la coerenza 3D attraverso un Adapter 3D che non richiede addestramento, il quale eleva le viste 2D dell'ultimo passo temporale in una rappresentazione 3D coerente, per poi condizionare le viste 2D del passo successivo utilizzando viste renderizzate, senza compromettere la qualità visiva. Con un tempo di inferenza di soli 2-5 minuti, questo framework ottiene un migliore compromesso tra qualità e velocità rispetto alla distillazione del punteggio. MVEdit è altamente versatile ed estendibile, con un'ampia gamma di applicazioni che includono la generazione da testo/immagine a 3D, l'editing da 3D a 3D e la sintesi di texture di alta qualità. In particolare, le valutazioni dimostrano prestazioni all'avanguardia sia nei compiti di generazione da immagine a 3D che nella generazione di texture guidata da testo. Inoltre, introduciamo un metodo per il fine-tuning di modelli di diffusione latente 2D su piccoli dataset 3D con risorse limitate, consentendo una rapida inizializzazione da testo a 3D a bassa risoluzione.

English

Open-domain 3D object synthesis has been lagging behind image synthesis due to limited data and higher computational complexity. To bridge this gap, recent works have investigated multi-view diffusion but often fall short in either 3D consistency, visual quality, or efficiency. This paper proposes MVEdit, which functions as a 3D counterpart of SDEdit, employing ancestral sampling to jointly denoise multi-view images and output high-quality textured meshes. Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency through a training-free 3D Adapter, which lifts the 2D views of the last timestep into a coherent 3D representation, then conditions the 2D views of the next timestep using rendered views, without uncompromising visual quality. With an inference time of only 2-5 minutes, this framework achieves better trade-off between quality and speed than score distillation. MVEdit is highly versatile and extendable, with a wide range of applications including text/image-to-3D generation, 3D-to-3D editing, and high-quality texture synthesis. In particular, evaluations demonstrate state-of-the-art performance in both image-to-3D and text-guided texture generation tasks. Additionally, we introduce a method for fine-tuning 2D latent diffusion models on small 3D datasets with limited resources, enabling fast low-resolution text-to-3D initialization.

Adattatore Generico per Diffusione 3D Utilizzando l'Editing Controllato Multi-Vista

Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

Abstract

Support