Progressieve Rendering Distillatie: Aanpassing van Stable Diffusion voor Directe Tekst-naar-Mesh Generatie zonder 3D Data
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
Auteurs: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
Samenvatting
Het is zeer wenselijk om een model te verkrijgen dat hoogwaardige 3D-meshes kan genereren vanuit tekstprompts in slechts enkele seconden. Hoewel recente pogingen vooraf getrainde tekst-naar-beeld diffusiemodellen, zoals Stable Diffusion (SD), hebben aangepast om 3D-representaties (bijv. Triplane) te genereren, lijden deze vaak aan een slechte kwaliteit door een gebrek aan voldoende hoogwaardige 3D-trainingsdata. Om het tekort aan data te overwinnen, stellen we een nieuwe trainingsmethode voor, genaamd Progressive Rendering Distillation (PRD), die de noodzaak voor 3D-grondwaarheden elimineert door multi-view diffusiemodellen te distilleren en SD aan te passen tot een native 3D-generator. In elke trainingsiteratie gebruikt PRD de U-Net om de latent progressief te denoisen vanuit willekeurige ruis voor een paar stappen, en in elke stap decodeert het de gedenoiseerde latent naar 3D-output. Multi-view diffusiemodellen, waaronder MVDream en RichDreamer, worden samen met SD gebruikt om tekst-consistente texturen en geometrieën in de 3D-outputs te distilleren via score-distillatie. Omdat PRD training ondersteunt zonder 3D-grondwaarheden, kunnen we eenvoudig de trainingsdata opschalen en de generatiekwaliteit verbeteren voor uitdagende tekstprompts met creatieve concepten. Tegelijkertijd kan PRD de inferentiesnelheid van het generatiemodel versnellen in slechts een paar stappen. Met PRD trainen we een Triplane-generator, genaamd TriplaneTurbo, die slechts 2,5% trainbare parameters toevoegt om SD aan te passen voor Triplane-generatie. TriplaneTurbo overtreft eerdere tekst-naar-3D-generatoren in zowel efficiëntie als kwaliteit. Specifiek kan het hoogwaardige 3D-meshes produceren in 1,2 seconden en generaliseert het goed voor uitdagende tekstinput. De code is beschikbaar op https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary