ChatPaper.aiChatPaper

Instant3D: Быстрое преобразование текста в 3D с использованием генерации с разреженными видами и крупной модели реконструкции

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

November 10, 2023
Авторы: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI

Аннотация

Модели генерации 3D-объектов из текста с использованием диффузионных моделей достигли значительного прогресса в последние годы. Однако существующие методы либо полагаются на оптимизацию с использованием дистилляции оценок, что приводит к медленному выводу, низкому разнообразию и проблемам с "Янус-эффектом", либо являются методами прямого прохода, которые генерируют низкокачественные результаты из-за недостатка обучающих данных в 3D. В данной статье мы предлагаем Instant3D — новый метод, который генерирует высококачественные и разнообразные 3D-объекты из текстовых запросов в режиме прямого прохода. Мы используем двухэтапный подход: сначала генерируется разреженный набор из четырех структурированных и согласованных видов из текста за один шаг с помощью дообученной 2D диффузионной модели для генерации изображений из текста, а затем напрямую регрессируется NeRF из сгенерированных изображений с использованием нового трансформерного реконструктора для разреженных видов. В ходе обширных экспериментов мы демонстрируем, что наш метод способен генерировать высококачественные, разнообразные и свободные от "Янус-эффекта" 3D-объекты менее чем за 20 секунд, что на два порядка быстрее, чем предыдущие методы на основе оптимизации, которые могут занимать от 1 до 10 часов. Наш проект доступен по ссылке: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
PDF334December 15, 2024