ChatPaper.aiChatPaper

Distilación de Renderizado Progresivo: Adaptación de Stable Diffusion para la Generación Instantánea de Mallas a partir de Texto sin Datos 3D

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

March 27, 2025
Autores: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI

Resumen

Es altamente deseable obtener un modelo capaz de generar mallas 3D de alta calidad a partir de indicaciones de texto en solo segundos. Aunque intentos recientes han adaptado modelos de difusión preentrenados de texto a imagen, como Stable Diffusion (SD), para generar representaciones 3D (por ejemplo, Triplano), a menudo sufren de baja calidad debido a la falta de datos de entrenamiento 3D de alta calidad suficientes. Con el objetivo de superar la escasez de datos, proponemos un nuevo esquema de entrenamiento, denominado Distilación de Renderizado Progresivo (PRD), que elimina la necesidad de datos 3D de referencia al destilar modelos de difusión multi-vista y adaptar SD para convertirlo en un generador 3D nativo. En cada iteración del entrenamiento, PRD utiliza la U-Net para desruir progresivamente el espacio latente a partir de ruido aleatorio durante unos pocos pasos, y en cada paso decodifica el espacio latente desruido en una salida 3D. Los modelos de difusión multi-vista, como MVDream y RichDreamer, se utilizan junto con SD para destilar texturas y geometrías consistentes con el texto en las salidas 3D mediante destilación de puntuación. Dado que PRD permite el entrenamiento sin datos 3D de referencia, podemos escalar fácilmente los datos de entrenamiento y mejorar la calidad de generación para indicaciones de texto desafiantes con conceptos creativos. Además, PRD puede acelerar la velocidad de inferencia del modelo de generación en solo unos pocos pasos. Con PRD, entrenamos un generador de Triplano, denominado TriplaneTurbo, que añade solo un 2.5% de parámetros entrenables para adaptar SD a la generación de Triplano. TriplaneTurbo supera a los generadores anteriores de texto a 3D tanto en eficiencia como en calidad. Específicamente, puede producir mallas 3D de alta calidad en 1.2 segundos y generaliza bien para entradas de texto desafiantes. El código está disponible en https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D meshes from text prompts in just seconds. While recent attempts have adapted pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into generators of 3D representations (e.g., Triplane), they often suffer from poor quality due to the lack of sufficient high-quality 3D training data. Aiming at overcoming the data shortage, we propose a novel training scheme, termed as Progressive Rendering Distillation (PRD), eliminating the need for 3D ground-truths by distilling multi-view diffusion models and adapting SD into a native 3D generator. In each iteration of training, PRD uses the U-Net to progressively denoise the latent from random noise for a few steps, and in each step it decodes the denoised latent into 3D output. Multi-view diffusion models, including MVDream and RichDreamer, are used in joint with SD to distill text-consistent textures and geometries into the 3D outputs through score distillation. Since PRD supports training without 3D ground-truths, we can easily scale up the training data and improve generation quality for challenging text prompts with creative concepts. Meanwhile, PRD can accelerate the inference speed of the generation model in just a few steps. With PRD, we train a Triplane generator, namely TriplaneTurbo, which adds only 2.5% trainable parameters to adapt SD for Triplane generation. TriplaneTurbo outperforms previous text-to-3D generators in both efficiency and quality. Specifically, it can produce high-quality 3D meshes in 1.2 seconds and generalize well for challenging text input. The code is available at https://github.com/theEricMa/TriplaneTurbo.

Summary

AI-Generated Summary

PDF162April 1, 2025