Прогрессивное дистилляционное рендеринг: адаптация Stable Diffusion для мгновенного преобразования текста в меш без использования 3D-данных
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
Авторы: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
Аннотация
Крайне желательно получить модель, способную генерировать высококачественные 3D-сетки из текстовых запросов всего за несколько секунд. Хотя недавние попытки адаптировали предобученные диффузионные модели для генерации изображений из текста, такие как Stable Diffusion (SD), для создания 3D-представлений (например, Triplane), они часто страдают от низкого качества из-за недостатка высококачественных 3D-данных для обучения. Стремясь преодолеть нехватку данных, мы предлагаем новую схему обучения, названную Progressive Rendering Distillation (PRD), которая устраняет необходимость в эталонных 3D-данных, дистиллируя многовидовые диффузионные модели и адаптируя SD для работы в качестве нативного 3D-генератора. На каждой итерации обучения PRD использует U-Net для постепенного удаления шума из латентного представления, начиная со случайного шума, и на каждом шаге декодирует очищенное латентное представление в 3D-результат. Многовидовые диффузионные модели, включая MVDream и RichDreamer, используются совместно с SD для дистилляции текстосогласованных текстур и геометрии в 3D-результаты через дистилляцию оценок. Поскольку PRD поддерживает обучение без эталонных 3D-данных, мы можем легко масштабировать объем обучающих данных и улучшить качество генерации для сложных текстовых запросов с креативными концепциями. В то же время PRD может ускорить процесс вывода модели генерации всего за несколько шагов. С помощью PRD мы обучаем генератор Triplane, названный TriplaneTurbo, который добавляет всего 2,5% обучаемых параметров для адаптации SD к генерации Triplane. TriplaneTurbo превосходит предыдущие генераторы 3D-моделей из текста как по эффективности, так и по качеству. В частности, он способен создавать высококачественные 3D-сетки за 1,2 секунды и хорошо обобщается для сложных текстовых запросов. Код доступен по адресу https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary