ChatPaper.aiChatPaper

Maîtriser l'effondrement des modes dans la distillation par score pour la génération de texte en 3D

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

December 31, 2023
Auteurs: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI

Résumé

Malgré les performances remarquables de la distillation de scores dans la génération de texte-à-3D, ces techniques souffrent notoirement de problèmes d'incohérence de vue, également connus sous le nom d'artefact "Janus", où les objets générés présentent plusieurs faces avant pour chaque vue. Bien que des méthodes empiriquement efficaces aient abordé ce problème via la correction des biais de scores ou l'ingénierie de prompts, une perspective plus rigoureuse pour expliquer et résoudre ce problème reste insaisissable. Dans cet article, nous révélons que les cadres existants de génération de texte-à-3D basés sur la distillation de scores dégénèrent en une recherche de vraisemblance maximale sur chaque vue indépendamment, souffrant ainsi du problème d'effondrement de mode, qui se manifeste comme l'artefact Janus en pratique. Pour maîtriser l'effondrement de mode, nous améliorons la distillation de scores en réintroduisant un terme d'entropie dans l'objectif variationnel correspondant, appliqué à la distribution des images rendues. Maximiser l'entropie encourage la diversité parmi les différentes vues dans les actifs 3D générés, atténuant ainsi le problème Janus. Sur la base de ce nouvel objectif, nous dérivons une nouvelle règle de mise à jour pour la distillation de scores 3D, appelée Distillation de Scores Entropique (ESD). Nous révélons théoriquement que l'ESD peut être simplifiée et implémentée en adoptant simplement l'astuce de guidage sans classifieur sur la distillation de scores variationnelle. Bien que d'une simplicité embarrassante, nos expériences approfondies démontrent avec succès que l'ESD peut être un traitement efficace contre les artefacts Janus dans la distillation de scores.
English
Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
PDF100December 15, 2024