DreamComposer: Управляемая генерация 3D-объектов с использованием многовидовых условий
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
Авторы: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
Аннотация
Используя предобученные двумерные генеративные модели большого масштаба, последние работы способны генерировать высококачественные новые виды из одного изображения, сделанного в естественных условиях. Однако из-за отсутствия информации с нескольких ракурсов эти методы сталкиваются с трудностями в создании управляемых новых видов. В данной статье мы представляем DreamComposer — гибкую и масштабируемую структуру, которая может улучшить существующие диффузионные модели, учитывающие ракурс, путем внедрения условий с нескольких видов. В частности, DreamComposer сначала использует модуль трехмерного преобразования, учитывающий ракурс, для получения трехмерных представлений объекта с нескольких видов. Затем он визуализирует скрытые признаки целевого вида из трехмерных представлений с помощью модуля слияния признаков с нескольких видов. Наконец, признаки целевого вида, извлеченные из входных данных с нескольких ракурсов, внедряются в предобученную диффузионную модель. Эксперименты показывают, что DreamComposer совместим с современными диффузионными моделями для синтеза новых видов в режиме zero-shot, дополнительно улучшая их способность генерировать высококачественные изображения новых видов с условиями с нескольких ракурсов, что делает их готовыми для управляемой реконструкции трехмерных объектов и других приложений.
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.