DreamComposer: Generación Controlable de Objetos 3D mediante Condiciones Multi-Vista

Resumen

Utilizando modelos generativos 2D preentrenados a gran escala, trabajos recientes son capaces de generar vistas novedosas de alta calidad a partir de una única imagen en condiciones naturales. Sin embargo, debido a la falta de información de múltiples vistas, estos trabajos encuentran dificultades para generar vistas novedosas controlables. En este artículo, presentamos DreamComposer, un marco flexible y escalable que puede mejorar los modelos de difusión conscientes de la vista existentes mediante la inyección de condiciones de múltiples vistas. Específicamente, DreamComposer primero utiliza un módulo de elevación 3D consciente de la vista para obtener representaciones 3D de un objeto desde múltiples vistas. Luego, renderiza las características latentes de la vista objetivo a partir de las representaciones 3D con el módulo de fusión de características de múltiples vistas. Finalmente, las características de la vista objetivo extraídas de las entradas de múltiples vistas se inyectan en un modelo de difusión preentrenado. Los experimentos muestran que DreamComposer es compatible con los modelos de difusión más avanzados para la síntesis de vistas novedosas en modo zero-shot, mejorándolos aún más para generar imágenes de vistas novedosas de alta fidelidad con condiciones de múltiples vistas, listas para la reconstrucción controlable de objetos 3D y diversas otras aplicaciones.

English

Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications.

DreamComposer: Generación Controlable de Objetos 3D mediante Condiciones Multi-Vista

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

Resumen

Support