DreamComposer: Geração Controlável de Objetos 3D via Condições Multi-Vista
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
Autores: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
Resumo
Utilizando modelos generativos 2D de grande escala pré-treinados, trabalhos recentes são capazes de gerar novas visões de alta qualidade a partir de uma única imagem capturada em cenários reais. No entanto, devido à falta de informações de múltiplas visões, esses trabalhos enfrentam dificuldades na geração de novas visões controláveis. Neste artigo, apresentamos o DreamComposer, uma estrutura flexível e escalável que pode aprimorar modelos de difusão conscientes da visão existentes, injetando condições de múltiplas visões. Especificamente, o DreamComposer primeiro utiliza um módulo de elevação 3D consciente da visão para obter representações 3D de um objeto a partir de múltiplas visões. Em seguida, ele renderiza as características latentes da visão alvo a partir das representações 3D com o módulo de fusão de características de múltiplas visões. Por fim, as características da visão alvo extraídas das entradas de múltiplas visões são injetadas em um modelo de difusão pré-treinado. Experimentos mostram que o DreamComposer é compatível com modelos de difusão state-of-the-art para síntese de novas visões zero-shot, aprimorando-os ainda mais para gerar imagens de novas visões de alta fidelidade com condições de múltiplas visões, prontas para reconstrução 3D controlável de objetos e várias outras aplicações.
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.