Het beteugelen van mode-collaps in score-distillatie voor tekst-naar-3D-generatie
Taming Mode Collapse in Score Distillation for Text-to-3D Generation
December 31, 2023
Auteurs: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
Samenvatting
Ondanks de opmerkelijke prestaties van score-distillatie in tekst-naar-3D-generatie, staan dergelijke technieken erom bekend dat ze last hebben van inconsistentie tussen verschillende aanzichten, ook wel bekend als het "Janus"-artefact, waarbij de gegenereerde objecten elk aanzicht vervalsen met meerdere voorzijden. Hoewel empirisch effectieve methoden dit probleem hebben benaderd via score-debiasing of prompt-engineering, blijft een meer rigoureus perspectief om dit probleem te verklaren en aan te pakken ongrijpbaar. In dit artikel onthullen we dat de bestaande op score-distillatie gebaseerde tekst-naar-3D-generatieframeworks degenereren tot maximal likelihood-seeking voor elk aanzicht afzonderlijk en daardoor last hebben van het mode-collapse-probleem, wat zich in de praktijk manifesteert als het Janus-artefact. Om mode-collapse te beteugelen, verbeteren we score-distillatie door een entropieterm opnieuw in te voeren in het corresponderende variatie-objectief, dat wordt toegepast op de verdeling van gerenderde afbeeldingen. Het maximaliseren van de entropie stimuleert diversiteit tussen verschillende aanzichten in gegenereerde 3D-assets, waardoor het Janus-probleem wordt gemitigeerd. Op basis van dit nieuwe objectief leiden we een nieuwe update-regel af voor 3D-score-distillatie, genaamd Entropische Score Distillatie (ESD). We tonen theoretisch aan dat ESD kan worden vereenvoudigd en geïmplementeerd door simpelweg de classifier-free guidance-truc toe te passen op variatie-score-distillatie. Hoewel het beschamend eenvoudig is, demonstreren onze uitgebreide experimenten succesvol dat ESD een effectieve behandeling kan zijn voor Janus-artefacten in score-distillatie.
English
Despite the remarkable performance of score distillation in text-to-3D
generation, such techniques notoriously suffer from view inconsistency issues,
also known as "Janus" artifact, where the generated objects fake each view with
multiple front faces. Although empirically effective methods have approached
this problem via score debiasing or prompt engineering, a more rigorous
perspective to explain and tackle this problem remains elusive. In this paper,
we reveal that the existing score distillation-based text-to-3D generation
frameworks degenerate to maximal likelihood seeking on each view independently
and thus suffer from the mode collapse problem, manifesting as the Janus
artifact in practice. To tame mode collapse, we improve score distillation by
re-establishing in entropy term in the corresponding variational objective,
which is applied to the distribution of rendered images. Maximizing the entropy
encourages diversity among different views in generated 3D assets, thereby
mitigating the Janus problem. Based on this new objective, we derive a new
update rule for 3D score distillation, dubbed Entropic Score Distillation
(ESD). We theoretically reveal that ESD can be simplified and implemented by
just adopting the classifier-free guidance trick upon variational score
distillation. Although embarrassingly straightforward, our extensive
experiments successfully demonstrate that ESD can be an effective treatment for
Janus artifacts in score distillation.