Distillation de rendu progressif : Adaptation de Stable Diffusion pour la génération instantanée de maillages à partir de texte sans données 3D
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
Auteurs: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
Résumé
Il est très souhaitable d'obtenir un modèle capable de générer des maillages 3D de haute qualité à partir de prompts textuels en quelques secondes. Bien que des tentatives récentes aient adapté des modèles de diffusion pré-entraînés de texte à image, tels que Stable Diffusion (SD), pour générer des représentations 3D (par exemple, Triplane), elles souffrent souvent d'une qualité médiocre en raison du manque de données d'entraînement 3D de haute qualité suffisantes. Visant à surmonter cette pénurie de données, nous proposons un nouveau schéma d'entraînement, appelé Progressive Rendering Distillation (PRD), qui élimine le besoin de vérités terrain 3D en distillant des modèles de diffusion multi-vues et en adaptant SD pour en faire un générateur 3D natif. À chaque itération de l'entraînement, PRD utilise l'U-Net pour débruiter progressivement le latent à partir d'un bruit aléatoire en quelques étapes, et à chaque étape, il décode le latent débruité en une sortie 3D. Les modèles de diffusion multi-vues, incluant MVDream et RichDreamer, sont utilisés conjointement avec SD pour distiller des textures et des géométries cohérentes avec le texte dans les sorties 3D via la distillation de score. Comme PRD permet l'entraînement sans vérités terrain 3D, nous pouvons facilement augmenter les données d'entraînement et améliorer la qualité de génération pour des prompts textuels complexes avec des concepts créatifs. Par ailleurs, PRD peut accélérer la vitesse d'inférence du modèle de génération en quelques étapes seulement. Avec PRD, nous entraînons un générateur Triplane, nommé TriplaneTurbo, qui ajoute seulement 2,5 % de paramètres entraînables pour adapter SD à la génération de Triplane. TriplaneTurbo surpasse les générateurs texte-à-3D précédents à la fois en efficacité et en qualité. Plus précisément, il peut produire des maillages 3D de haute qualité en 1,2 seconde et généraliser efficacement pour des entrées textuelles complexes. Le code est disponible à l'adresse https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary