Общий 3D диффузионный адаптер с использованием контролируемого многопросмотрового редактирования.
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing
March 18, 2024
Авторы: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI
Аннотация
Синтез трехмерных объектов в открытой области отстает от синтеза изображений из-за ограниченных данных и более высокой вычислительной сложности. Для устранения этого разрыва недавние работы исследовали многовидовую диффузию, но часто уступают в либо трехмерной согласованности, либо визуальном качестве, либо эффективности. В данной статье предлагается MVEdit, который функционирует как трехмерный аналог SDEdit, используя предковую выборку для совместного удаления шумов с многовидовых изображений и вывода высококачественных текстурированных сеток. Основанный на готовых 2D моделях диффузии, MVEdit достигает трехмерной согласованности через трехмерный адаптер без обучения, который преобразует 2D виды последнего временного шага в согласованное трехмерное представление, затем условиями делает 2D виды следующего временного шага с использованием отрендеренных видов, не жертвуя визуальным качеством. С временем вывода всего 2-5 минут, этот фреймворк достигает лучшего компромисса между качеством и скоростью, чем дистилляция оценки. MVEdit является высоко гибким и расширяемым, с широким спектром применений, включая генерацию текста/изображения в 3D, редактирование 3D в 3D и синтез текстур высокого качества. В частности, оценки демонстрируют передовые результаты как в задачах генерации изображения в 3D, так и в генерации текстуры по текстовому справочнику. Кроме того, мы представляем метод для тонкой настройки 2D латентных моделей диффузии на небольших 3D наборах данных с ограниченными ресурсами, обеспечивая быструю инициализацию текста в 3D низкого разрешения.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due
to limited data and higher computational complexity. To bridge this gap, recent
works have investigated multi-view diffusion but often fall short in either 3D
consistency, visual quality, or efficiency. This paper proposes MVEdit, which
functions as a 3D counterpart of SDEdit, employing ancestral sampling to
jointly denoise multi-view images and output high-quality textured meshes.
Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency
through a training-free 3D Adapter, which lifts the 2D views of the last
timestep into a coherent 3D representation, then conditions the 2D views of the
next timestep using rendered views, without uncompromising visual quality. With
an inference time of only 2-5 minutes, this framework achieves better trade-off
between quality and speed than score distillation. MVEdit is highly versatile
and extendable, with a wide range of applications including text/image-to-3D
generation, 3D-to-3D editing, and high-quality texture synthesis. In
particular, evaluations demonstrate state-of-the-art performance in both
image-to-3D and text-guided texture generation tasks. Additionally, we
introduce a method for fine-tuning 2D latent diffusion models on small 3D
datasets with limited resources, enabling fast low-resolution text-to-3D
initialization.Summary
AI-Generated Summary