Het beteugelen van mode-collaps in score-distillatie voor tekst-naar-3D-generatie

Samenvatting

Ondanks de opmerkelijke prestaties van score-distillatie in tekst-naar-3D-generatie, staan dergelijke technieken erom bekend dat ze last hebben van inconsistentie tussen verschillende aanzichten, ook wel bekend als het "Janus"-artefact, waarbij de gegenereerde objecten elk aanzicht vervalsen met meerdere voorzijden. Hoewel empirisch effectieve methoden dit probleem hebben benaderd via score-debiasing of prompt-engineering, blijft een meer rigoureus perspectief om dit probleem te verklaren en aan te pakken ongrijpbaar. In dit artikel onthullen we dat de bestaande op score-distillatie gebaseerde tekst-naar-3D-generatieframeworks degenereren tot maximal likelihood-seeking voor elk aanzicht afzonderlijk en daardoor last hebben van het mode-collapse-probleem, wat zich in de praktijk manifesteert als het Janus-artefact. Om mode-collapse te beteugelen, verbeteren we score-distillatie door een entropieterm opnieuw in te voeren in het corresponderende variatie-objectief, dat wordt toegepast op de verdeling van gerenderde afbeeldingen. Het maximaliseren van de entropie stimuleert diversiteit tussen verschillende aanzichten in gegenereerde 3D-assets, waardoor het Janus-probleem wordt gemitigeerd. Op basis van dit nieuwe objectief leiden we een nieuwe update-regel af voor 3D-score-distillatie, genaamd Entropische Score Distillatie (ESD). We tonen theoretisch aan dat ESD kan worden vereenvoudigd en geïmplementeerd door simpelweg de classifier-free guidance-truc toe te passen op variatie-score-distillatie. Hoewel het beschamend eenvoudig is, demonstreren onze uitgebreide experimenten succesvol dat ESD een effectieve behandeling kan zijn voor Janus-artefacten in score-distillatie.

English

Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.

Het beteugelen van mode-collaps in score-distillatie voor tekst-naar-3D-generatie

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

Samenvatting

Support