DreamComposer: Generación Controlable de Objetos 3D mediante Condiciones Multi-Vista
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
Autores: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
Resumen
Utilizando modelos generativos 2D preentrenados a gran escala, trabajos recientes son capaces de generar vistas novedosas de alta calidad a partir de una única imagen en condiciones naturales. Sin embargo, debido a la falta de información de múltiples vistas, estos trabajos encuentran dificultades para generar vistas novedosas controlables. En este artículo, presentamos DreamComposer, un marco flexible y escalable que puede mejorar los modelos de difusión conscientes de la vista existentes mediante la inyección de condiciones de múltiples vistas. Específicamente, DreamComposer primero utiliza un módulo de elevación 3D consciente de la vista para obtener representaciones 3D de un objeto desde múltiples vistas. Luego, renderiza las características latentes de la vista objetivo a partir de las representaciones 3D con el módulo de fusión de características de múltiples vistas. Finalmente, las características de la vista objetivo extraídas de las entradas de múltiples vistas se inyectan en un modelo de difusión preentrenado. Los experimentos muestran que DreamComposer es compatible con los modelos de difusión más avanzados para la síntesis de vistas novedosas en modo zero-shot, mejorándolos aún más para generar imágenes de vistas novedosas de alta fidelidad con condiciones de múltiples vistas, listas para la reconstrucción controlable de objetos 3D y diversas otras aplicaciones.
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.