Domare il Collasso Modale nella Distillazione del Punteggio per la Generazione da Testo a 3D
Taming Mode Collapse in Score Distillation for Text-to-3D Generation
December 31, 2023
Autori: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
Abstract
Nonostante le prestazioni notevoli della distillazione del punteggio nella generazione di oggetti 3D da testo, tali tecniche sono notoriamente affette da problemi di incoerenza visiva, noti anche come artefatti "Janus", in cui gli oggetti generati presentano più facce frontali in ciascuna vista. Sebbene metodi empiricamente efficaci abbiano affrontato questo problema attraverso la correzione del bias del punteggio o l'ingegnerizzazione dei prompt, una prospettiva più rigorosa per spiegare e risolvere questo problema rimane elusiva. In questo articolo, riveliamo che i framework esistenti basati sulla distillazione del punteggio per la generazione di oggetti 3D da testo degenerano nella ricerca della massima verosimiglianza su ciascuna vista in modo indipendente, soffrendo così del problema del collasso modale, che si manifesta come l'artefatto Janus nella pratica. Per mitigare il collasso modale, miglioriamo la distillazione del punteggio reintroducendo un termine di entropia nell'obiettivo variazionale corrispondente, applicato alla distribuzione delle immagini renderizzate. Massimizzare l'entropia incoraggia la diversità tra le diverse viste negli asset 3D generati, mitigando così il problema Janus. Sulla base di questo nuovo obiettivo, deriviamo una nuova regola di aggiornamento per la distillazione del punteggio 3D, denominata Entropic Score Distillation (ESD). Teoricamente, riveliamo che l'ESD può essere semplificata e implementata semplicemente adottando il trucco della guida senza classificatore sulla distillazione variazionale del punteggio. Sebbene sia sorprendentemente semplice, i nostri esperimenti dimostrano con successo che l'ESD può essere un trattamento efficace per gli artefatti Janus nella distillazione del punteggio.
English
Despite the remarkable performance of score distillation in text-to-3D
generation, such techniques notoriously suffer from view inconsistency issues,
also known as "Janus" artifact, where the generated objects fake each view with
multiple front faces. Although empirically effective methods have approached
this problem via score debiasing or prompt engineering, a more rigorous
perspective to explain and tackle this problem remains elusive. In this paper,
we reveal that the existing score distillation-based text-to-3D generation
frameworks degenerate to maximal likelihood seeking on each view independently
and thus suffer from the mode collapse problem, manifesting as the Janus
artifact in practice. To tame mode collapse, we improve score distillation by
re-establishing in entropy term in the corresponding variational objective,
which is applied to the distribution of rendered images. Maximizing the entropy
encourages diversity among different views in generated 3D assets, thereby
mitigating the Janus problem. Based on this new objective, we derive a new
update rule for 3D score distillation, dubbed Entropic Score Distillation
(ESD). We theoretically reveal that ESD can be simplified and implemented by
just adopting the classifier-free guidance trick upon variational score
distillation. Although embarrassingly straightforward, our extensive
experiments successfully demonstrate that ESD can be an effective treatment for
Janus artifacts in score distillation.