ChatPaper.aiChatPaper

Bändigung des Modus-Kollapses bei der Score-Destillation für die Text-zu-3D-Generierung

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

December 31, 2023
Autoren: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI

Zusammenfassung

Trotz der bemerkenswerten Leistung der Score-Distillation bei der Text-zu-3D-Generierung leiden solche Techniken bekanntermaßen unter Inkonsistenzen in der Ansicht, auch bekannt als „Janus“-Artefakt, bei dem die generierten Objekte jede Ansicht mit mehreren Vorderseiten vortäuschen. Obwohl empirisch wirksame Methoden dieses Problem durch Score-Debiasing oder Prompt-Engineering angegangen sind, bleibt eine strengere Perspektive zur Erklärung und Bewältigung dieses Problems schwer fassbar. In diesem Artikel zeigen wir, dass die bestehenden Score-Distillation-basierten Text-zu-3D-Generierungsframeworks auf die Maximierung der Wahrscheinlichkeit für jede Ansicht unabhängig voneinander reduziert werden und somit unter dem Problem des Modus-Zusammenbruchs leiden, was sich in der Praxis als Janus-Artefakt manifestiert. Um den Modus-Zusammenbruch zu kontrollieren, verbessern wir die Score-Distillation, indem wir einen Entropie-Term im entsprechenden Variationsziel neu etablieren, der auf die Verteilung der gerenderten Bilder angewendet wird. Die Maximierung der Entropie fördert die Vielfalt zwischen verschiedenen Ansichten in generierten 3D-Assets und mildert somit das Janus-Problem. Basierend auf diesem neuen Ziel leiten wir eine neue Aktualisierungsregel für die 3D-Score-Distillation ab, die wir als Entropische Score-Distillation (ESD) bezeichnen. Wir zeigen theoretisch, dass ESD vereinfacht und implementiert werden kann, indem lediglich der Trick der klassifikatorfreien Führung auf die variationsbasierte Score-Distillation angewendet wird. Obwohl peinlich einfach, demonstrieren unsere umfangreichen Experimente erfolgreich, dass ESD eine wirksame Behandlung für Janus-Artefakte in der Score-Distillation sein kann.
English
Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
PDF100December 15, 2024