DreamComposer: Generazione Controllabile di Oggetti 3D tramite Condizioni Multi-Vista
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
Autori: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
Abstract
Utilizzando modelli generativi 2D su larga scala pre-addestrati, i lavori recenti sono in grado di generare nuove viste di alta qualità a partire da una singola immagine in contesti reali. Tuttavia, a causa della mancanza di informazioni provenienti da più viste, questi approcci incontrano difficoltà nel generare nuove viste controllabili. In questo articolo, presentiamo DreamComposer, un framework flessibile e scalabile in grado di migliorare i modelli di diffusione esistenti consapevoli della vista, iniettando condizioni multi-vista. Nello specifico, DreamComposer utilizza inizialmente un modulo di sollevamento 3D consapevole della vista per ottenere rappresentazioni 3D di un oggetto da più viste. Successivamente, rende le caratteristiche latenti della vista target dalle rappresentazioni 3D attraverso un modulo di fusione delle caratteristiche multi-vista. Infine, le caratteristiche della vista target estratte dagli input multi-vista vengono iniettate in un modello di diffusione pre-addestrato. Gli esperimenti dimostrano che DreamComposer è compatibile con i modelli di diffusione all'avanguardia per la sintesi zero-shot di nuove viste, migliorandoli ulteriormente per generare immagini di nuove viste ad alta fedeltà con condizioni multi-vista, pronte per la ricostruzione controllabile di oggetti 3D e varie altre applicazioni.
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.