Dual3D: Эффективная и последовательная генерация текста в 3D с двойным режимом многозрительной латентной диффузии.
Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
May 16, 2024
Авторы: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI
Аннотация
Мы представляем Dual3D, новую рамку генерации текста в 3D, которая создает высококачественные 3D-объекты из текстов всего за 1 минуту. Ключевым компонентом является двухрежимная многовидовая модель латентной диффузии. Учитывая шумные многовидовые латенты, режим 2D может эффективно удалить шум с помощью единственной сети для денойзинга латент, в то время как режим 3D может создать нейронную поверхность три-плоскости для последовательного денойзинга на основе рендеринга. Большинство модулей для обоих режимов настроены из предварительно обученной модели латентной диффузии текста в изображение, чтобы избежать дорогой стоимости обучения с нуля. Для преодоления высокой стоимости рендеринга во время вывода, мы предлагаем стратегию переключения двухрежимного вывода, чтобы использовать всего 1/10 шагов денойзинга с режимом 3D, успешно создавая 3D-объект всего за 10 секунд без ущерба качеству. Текстура 3D-объекта может быть дополнительно улучшена нашим эффективным процессом улучшения текстуры за короткое время. Обширные эксперименты показывают, что наш метод обеспечивает передовое качество работы, существенно сокращая время генерации. Наша страница проекта доступна по адресу https://dual3d.github.io
English
We present Dual3D, a novel text-to-3D generation framework that generates
high-quality 3D assets from texts in only 1 minute.The key component is a
dual-mode multi-view latent diffusion model. Given the noisy multi-view
latents, the 2D mode can efficiently denoise them with a single latent
denoising network, while the 3D mode can generate a tri-plane neural surface
for consistent rendering-based denoising. Most modules for both modes are tuned
from a pre-trained text-to-image latent diffusion model to circumvent the
expensive cost of training from scratch. To overcome the high rendering cost
during inference, we propose the dual-mode toggling inference strategy to use
only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in
just 10 seconds without sacrificing quality. The texture of the 3D asset can
be further enhanced by our efficient texture refinement process in a short
time. Extensive experiments demonstrate that our method delivers
state-of-the-art performance while significantly reducing generation time. Our
project page is available at https://dual3d.github.ioSummary
AI-Generated Summary