ChatPaper.aiChatPaper

DreamComposer : Génération contrôlée d'objets 3D via des conditions multi-vues

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

December 6, 2023
Auteurs: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI

Résumé

En exploitant des modèles génératifs 2D pré-entraînés à grande échelle, les travaux récents sont capables de générer des vues nouvelles de haute qualité à partir d'une seule image en conditions réelles. Cependant, en raison du manque d'informations provenant de multiples vues, ces travaux rencontrent des difficultés à générer des vues nouvelles contrôlables. Dans cet article, nous présentons DreamComposer, un cadre flexible et évolutif qui peut améliorer les modèles de diffusion conscients des vues existants en injectant des conditions multi-vues. Plus précisément, DreamComposer utilise d'abord un module de projection 3D conscient des vues pour obtenir des représentations 3D d'un objet à partir de multiples vues. Ensuite, il rend les caractéristiques latentes de la vue cible à partir des représentations 3D avec le module de fusion de caractéristiques multi-vues. Enfin, les caractéristiques de la vue cible extraites des entrées multi-vues sont injectées dans un modèle de diffusion pré-entraîné. Les expériences montrent que DreamComposer est compatible avec les modèles de diffusion de pointe pour la synthèse de vues nouvelles en zero-shot, les améliorant davantage pour générer des images de vues nouvelles à haute fidélité avec des conditions multi-vues, prêtes pour la reconstruction contrôlable d'objets 3D et diverses autres applications.
English
Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications.
PDF90December 15, 2024