IM-3D: Итеративное мультивьюное диффузионное моделирование и реконструкция для генерации высококачественных 3D-моделей
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation
February 13, 2024
Авторы: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI
Аннотация
Большинство генераторов текста в 3D основываются на готовых моделях преобразования текста в изображения, обученных на миллиардах изображений. Они используют варианты метода Score Distillation Sampling (SDS), который работает медленно, несколько нестабилен и склонен к появлению артефактов. Одним из способов улучшения является тонкая настройка 2D-генератора для учета многовидовой информации, что может помочь в процессе дистилляции или может быть объединено с реконструкционными сетями для непосредственного вывода 3D-объектов. В данной статье мы более глубоко исследуем пространство проектирования моделей преобразования текста в 3D. Мы значительно улучшаем генерацию многовидовых данных, рассматривая видео-генераторы вместо генераторов изображений. В сочетании с 3D-реконструкционным алгоритмом, который, используя сплайны на основе гауссовых функций, может оптимизировать устойчивую функцию потерь на основе изображений, мы напрямую получаем высококачественные 3D-результаты из сгенерированных видов. Наш новый метод, IM-3D, сокращает количество вычислений в сети 2D-генератора в 10-100 раз, что приводит к более эффективному процессу, лучшему качеству, меньшему количеству геометрических несоответствий и более высокой доле пригодных 3D-ассетов.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models
trained on billions of images. They use variants of Score Distillation Sampling
(SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation
is to fine-tune the 2D generator to be multi-view aware, which can help
distillation or can be combined with reconstruction networks to output 3D
objects directly. In this paper, we further explore the design space of
text-to-3D models. We significantly improve multi-view generation by
considering video instead of image generators. Combined with a 3D
reconstruction algorithm which, by using Gaussian splatting, can optimize a
robust image-based loss, we directly produce high-quality 3D outputs from the
generated views. Our new method, IM-3D, reduces the number of evaluations of
the 2D generator network 10-100x, resulting in a much more efficient pipeline,
better quality, fewer geometric inconsistencies, and higher yield of usable 3D
assets.Summary
AI-Generated Summary