Text-to-3D avec distillation de score de classifieur

papers.abstract

La génération de texte vers 3D a réalisé des progrès remarquables récemment, en particulier avec les méthodes basées sur l'échantillonnage par distillation de score (Score Distillation Sampling, SDS) qui exploitent des modèles de diffusion 2D pré-entraînés. Bien que l'utilisation de l'orientation sans classifieur (classifier-free guidance) soit largement reconnue comme cruciale pour une optimisation réussie, elle est souvent considérée comme une astuce auxiliaire plutôt que comme l'élément le plus essentiel. Dans cet article, nous réévaluons le rôle de l'orientation sans classifieur dans la distillation de score et découvrons un résultat surprenant : l'orientation seule suffit pour des tâches efficaces de génération de texte vers 3D. Nous nommons cette méthode Distillation de Score par Classifieur (Classifier Score Distillation, CSD), qui peut être interprétée comme l'utilisation d'un modèle de classification implicite pour la génération. Cette nouvelle perspective révèle des insights inédits pour comprendre les techniques existantes. Nous validons l'efficacité de la CSD sur une variété de tâches de génération de texte vers 3D, incluant la génération de formes, la synthèse de textures et l'édition de formes, obtenant des résultats supérieurs à ceux des méthodes de pointe. Notre page de projet est disponible à l'adresse suivante : https://xinyu-andy.github.io/Classifier-Score-Distillation.

English

Text-to-3D generation has made remarkable progress recently, particularly with methods based on Score Distillation Sampling (SDS) that leverages pre-trained 2D diffusion models. While the usage of classifier-free guidance is well acknowledged to be crucial for successful optimization, it is considered an auxiliary trick rather than the most essential component. In this paper, we re-evaluate the role of classifier-free guidance in score distillation and discover a surprising finding: the guidance alone is enough for effective text-to-3D generation tasks. We name this method Classifier Score Distillation (CSD), which can be interpreted as using an implicit classification model for generation. This new perspective reveals new insights for understanding existing techniques. We validate the effectiveness of CSD across a variety of text-to-3D tasks including shape generation, texture synthesis, and shape editing, achieving results superior to those of state-of-the-art methods. Our project page is https://xinyu-andy.github.io/Classifier-Score-Distillation

Text-to-3D avec distillation de score de classifieur

Text-to-3D with classifier score distillation

papers.abstract

Support