プログレッシブレンダリング蒸留:3Dデータなしで即時テキストtoメッシュ生成のためのStable Diffusionの適応
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
著者: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
要旨
テキストプロンプトからわずか数秒で高品質な3Dメッシュを生成できるモデルの実現は非常に望ましい。最近の試みでは、Stable Diffusion(SD)のような事前学習済みテキスト・画像拡散モデルを3D表現(例:Triplane)の生成器に適応させているが、十分な高品質な3D学習データの不足により、品質が低いことが多い。このデータ不足を克服するため、我々はProgressive Rendering Distillation(PRD)と呼ばれる新しい学習スキームを提案し、3Dのグラウンドトゥルースを必要とせず、マルチビュー拡散モデルを蒸留し、SDをネイティブな3D生成器に適応させる。PRDの各学習イテレーションでは、U-Netを使用してランダムノイズから潜在変数を数ステップで段階的にノイズ除去し、各ステップでノイズ除去された潜在変数を3D出力にデコードする。MVDreamやRichDreamerなどのマルチビュー拡散モデルをSDと組み合わせて使用し、スコア蒸留を通じてテキストに一貫したテクスチャとジオメトリを3D出力に蒸留する。PRDは3Dグラウンドトゥルースなしで学習をサポートするため、学習データを容易にスケールアップし、創造的な概念を含む難しいテキストプロンプトに対する生成品質を向上させることができる。同時に、PRDは生成モデルの推論速度をわずか数ステップで加速できる。PRDを使用して、Triplane生成のためにSDを適応させるためにわずか2.5%の学習可能なパラメータを追加したTriplaneTurboというTriplane生成器を学習した。TriplaneTurboは、効率と品質の両面で従来のテキスト・3D生成器を上回る。具体的には、1.2秒で高品質な3Dメッシュを生成し、難しいテキスト入力に対しても良好に汎化する。コードはhttps://github.com/theEricMa/TriplaneTurboで公開されている。
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary