ChatPaper.aiChatPaper

Distilação Progressiva de Renderização: Adaptando o Stable Diffusion para Geração Instantânea de Texto para Malha sem Dados 3D

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

March 27, 2025
Autores: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI

Resumo

É altamente desejável obter um modelo capaz de gerar malhas 3D de alta qualidade a partir de prompts de texto em apenas alguns segundos. Embora tentativas recentes tenham adaptado modelos de difusão pré-treinados de texto para imagem, como o Stable Diffusion (SD), em geradores de representações 3D (por exemplo, Triplane), eles frequentemente sofrem com qualidade inferior devido à falta de dados de treinamento 3D de alta qualidade suficientes. Visando superar a escassez de dados, propomos um novo esquema de treinamento, denominado Distilação de Renderização Progressiva (PRD), que elimina a necessidade de ground-truths 3D ao destilar modelos de difusão multi-visão e adaptar o SD em um gerador 3D nativo. Em cada iteração de treinamento, o PRD utiliza a U-Net para desnaturar progressivamente o latente a partir de ruído aleatório por algumas etapas, e em cada etapa ele decodifica o latente desnaturado em uma saída 3D. Modelos de difusão multi-visão, incluindo MVDream e RichDreamer, são usados em conjunto com o SD para destilar texturas e geometrias consistentes com o texto nas saídas 3D por meio de destilação de pontuação. Como o PRD suporta treinamento sem ground-truths 3D, podemos facilmente escalar os dados de treinamento e melhorar a qualidade da geração para prompts de texto desafiadores com conceitos criativos. Enquanto isso, o PRD pode acelerar a velocidade de inferência do modelo de geração em apenas algumas etapas. Com o PRD, treinamos um gerador Triplane, denominado TriplaneTurbo, que adiciona apenas 2,5% de parâmetros treináveis para adaptar o SD à geração de Triplane. O TriplaneTurbo supera os geradores anteriores de texto para 3D tanto em eficiência quanto em qualidade. Especificamente, ele pode produzir malhas 3D de alta qualidade em 1,2 segundos e generalizar bem para entradas de texto desafiadoras. O código está disponível em https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D meshes from text prompts in just seconds. While recent attempts have adapted pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into generators of 3D representations (e.g., Triplane), they often suffer from poor quality due to the lack of sufficient high-quality 3D training data. Aiming at overcoming the data shortage, we propose a novel training scheme, termed as Progressive Rendering Distillation (PRD), eliminating the need for 3D ground-truths by distilling multi-view diffusion models and adapting SD into a native 3D generator. In each iteration of training, PRD uses the U-Net to progressively denoise the latent from random noise for a few steps, and in each step it decodes the denoised latent into 3D output. Multi-view diffusion models, including MVDream and RichDreamer, are used in joint with SD to distill text-consistent textures and geometries into the 3D outputs through score distillation. Since PRD supports training without 3D ground-truths, we can easily scale up the training data and improve generation quality for challenging text prompts with creative concepts. Meanwhile, PRD can accelerate the inference speed of the generation model in just a few steps. With PRD, we train a Triplane generator, namely TriplaneTurbo, which adds only 2.5% trainable parameters to adapt SD for Triplane generation. TriplaneTurbo outperforms previous text-to-3D generators in both efficiency and quality. Specifically, it can produce high-quality 3D meshes in 1.2 seconds and generalize well for challenging text input. The code is available at https://github.com/theEricMa/TriplaneTurbo.

Summary

AI-Generated Summary

PDF162April 1, 2025