DreamComposer: Geração Controlável de Objetos 3D via Condições Multi-Vista

Resumo

Utilizando modelos generativos 2D de grande escala pré-treinados, trabalhos recentes são capazes de gerar novas visões de alta qualidade a partir de uma única imagem capturada em cenários reais. No entanto, devido à falta de informações de múltiplas visões, esses trabalhos enfrentam dificuldades na geração de novas visões controláveis. Neste artigo, apresentamos o DreamComposer, uma estrutura flexível e escalável que pode aprimorar modelos de difusão conscientes da visão existentes, injetando condições de múltiplas visões. Especificamente, o DreamComposer primeiro utiliza um módulo de elevação 3D consciente da visão para obter representações 3D de um objeto a partir de múltiplas visões. Em seguida, ele renderiza as características latentes da visão alvo a partir das representações 3D com o módulo de fusão de características de múltiplas visões. Por fim, as características da visão alvo extraídas das entradas de múltiplas visões são injetadas em um modelo de difusão pré-treinado. Experimentos mostram que o DreamComposer é compatível com modelos de difusão state-of-the-art para síntese de novas visões zero-shot, aprimorando-os ainda mais para gerar imagens de novas visões de alta fidelidade com condições de múltiplas visões, prontas para reconstrução 3D controlável de objetos e várias outras aplicações.

English

Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications.

DreamComposer: Geração Controlável de Objetos 3D via Condições Multi-Vista

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

Resumo

Support