MVDream: Многовидовое диффузионное моделирование для генерации 3D-объектов
MVDream: Multi-view Diffusion for 3D Generation
August 31, 2023
Авторы: Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang
cs.AI
Аннотация
Мы представляем MVDream — многовидовую диффузионную модель, способную генерировать геометрически согласованные изображения с нескольких ракурсов на основе текстового запроса. Используя предобученные на крупномасштабных веб-данных модели диффузии изображений и многовидовой набор данных, созданный из 3D-ассетов, наша модель достигает как обобщаемости 2D-диффузии, так и согласованности 3D-данных. Такая модель может применяться в качестве многовидового априори для генерации 3D-объектов с помощью метода Score Distillation Sampling, значительно повышая стабильность существующих методов 2D-лифтинга за счет решения проблемы 3D-согласованности. Кроме того, мы показываем, что многовидовую диффузионную модель можно дообучать в условиях ограниченного количества данных для персонализированной 3D-генерации, например, в приложении DreamBooth3D, где согласованность сохраняется после изучения идентичности объекта.
English
We propose MVDream, a multi-view diffusion model that is able to generate
geometrically consistent multi-view images from a given text prompt. By
leveraging image diffusion models pre-trained on large-scale web datasets and a
multi-view dataset rendered from 3D assets, the resulting multi-view diffusion
model can achieve both the generalizability of 2D diffusion and the consistency
of 3D data. Such a model can thus be applied as a multi-view prior for 3D
generation via Score Distillation Sampling, where it greatly improves the
stability of existing 2D-lifting methods by solving the 3D consistency problem.
Finally, we show that the multi-view diffusion model can also be fine-tuned
under a few shot setting for personalized 3D generation, i.e. DreamBooth3D
application, where the consistency can be maintained after learning the subject
identity.