Progressive Rendering Distillation: Anpassung von Stable Diffusion für sofortige Text-zu-Mesh-Generierung ohne 3D-Daten
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
Autoren: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
Zusammenfassung
Es ist äußerst wünschenswert, ein Modell zu erhalten, das in der Lage ist, hochwertige 3D-Meshes aus Textprompts in nur wenigen Sekunden zu generieren. Obwohl neuere Ansätze vortrainierte Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion (SD) zu Generatoren von 3D-Darstellungen (z. B. Triplane) adaptiert haben, leiden diese oft unter mangelnder Qualität aufgrund des Mangels an ausreichend hochwertigen 3D-Trainingsdaten. Um diesen Datenmangel zu überwinden, schlagen wir ein neuartiges Trainingsschema vor, das als Progressive Rendering Distillation (PRD) bezeichnet wird und den Bedarf an 3D-Ground-Truth-Daten eliminiert, indem es Multi-View-Diffusionsmodelle destilliert und SD in einen nativen 3D-Generator adaptiert. In jeder Trainingsiteration verwendet PRD das U-Net, um den latenten Raum schrittweise von zufälligem Rauschen zu entrauschen, und decodiert in jedem Schritt den entrauschten latenten Raum in eine 3D-Ausgabe. Multi-View-Diffusionsmodelle wie MVDream und RichDreamer werden gemeinsam mit SD eingesetzt, um textkonsistente Texturen und Geometrien durch Score-Distillation in die 3D-Ausgaben zu destillieren. Da PRD das Training ohne 3D-Ground-Truth-Daten unterstützt, können wir die Trainingsdaten leicht skalieren und die Generierungsqualität für anspruchsvolle Textprompts mit kreativen Konzepten verbessern. Gleichzeitig kann PRD die Inferenzgeschwindigkeit des Generierungsmodells in nur wenigen Schritten beschleunigen. Mit PRD trainieren wir einen Triplane-Generator, genannt TriplaneTurbo, der nur 2,5 % trainierbare Parameter hinzufügt, um SD für die Triplane-Generierung zu adaptieren. TriplaneTurbo übertrifft bisherige Text-zu-3D-Generatoren sowohl in Effizienz als auch in Qualität. Insbesondere kann es hochwertige 3D-Meshes in 1,2 Sekunden erzeugen und generalisiert gut für anspruchsvolle Texteingaben. Der Code ist verfügbar unter https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary