IM-3D: Итеративное мультивьюное диффузионное моделирование и реконструкция для генерации высококачественных 3D-моделей

Аннотация

Большинство генераторов текста в 3D основываются на готовых моделях преобразования текста в изображения, обученных на миллиардах изображений. Они используют варианты метода Score Distillation Sampling (SDS), который работает медленно, несколько нестабилен и склонен к появлению артефактов. Одним из способов улучшения является тонкая настройка 2D-генератора для учета многовидовой информации, что может помочь в процессе дистилляции или может быть объединено с реконструкционными сетями для непосредственного вывода 3D-объектов. В данной статье мы более глубоко исследуем пространство проектирования моделей преобразования текста в 3D. Мы значительно улучшаем генерацию многовидовых данных, рассматривая видео-генераторы вместо генераторов изображений. В сочетании с 3D-реконструкционным алгоритмом, который, используя сплайны на основе гауссовых функций, может оптимизировать устойчивую функцию потерь на основе изображений, мы напрямую получаем высококачественные 3D-результаты из сгенерированных видов. Наш новый метод, IM-3D, сокращает количество вычислений в сети 2D-генератора в 10-100 раз, что приводит к более эффективному процессу, лучшему качеству, меньшему количеству геометрических несоответствий и более высокой доле пригодных 3D-ассетов.

English

Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.

IM-3D: Итеративное мультивьюное диффузионное моделирование и реконструкция для генерации высококачественных 3D-моделей

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

Аннотация

Support