DreamComposer: Steuerbare 3D-Objekterzeugung durch Multi-View-Bedingungen
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
Autoren: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
Zusammenfassung
Durch die Nutzung vortrainierter 2D-Generativmodelle in großem Maßstab sind aktuelle Arbeiten in der Lage, hochwertige neue Ansichten aus einem einzelnen Bild in freier Umgebung zu generieren. Aufgrund des Mangels an Informationen aus mehreren Ansichten stoßen diese Arbeiten jedoch auf Schwierigkeiten bei der Erzeugung kontrollierbarer neuer Ansichten. In diesem Artikel stellen wir DreamComposer vor, ein flexibles und skalierbares Framework, das bestehende ansichtsbewusste Diffusionsmodelle durch die Einbindung von Mehransichtsbedingungen verbessern kann. Konkret verwendet DreamComposer zunächst ein ansichtsbewusstes 3D-Hebungsmodul, um 3D-Darstellungen eines Objekts aus mehreren Ansichten zu erhalten. Anschließend rendert es die latenten Merkmale der Zielansicht aus den 3D-Darstellungen mit dem Mehransichts-Merkmal-Fusionsmodul. Schließlich werden die aus den Mehransichtseingaben extrahierten Zielansichtsmerkmale in ein vortrainiertes Diffusionsmodell eingefügt. Experimente zeigen, dass DreamComposer mit state-of-the-art Diffusionsmodellen für die Null-Shot-Synthese neuer Ansichten kompatibel ist und diese weiter verbessert, um hochauflösende neue Ansichtsbilder mit Mehransichtsbedingungen zu generieren, die für die kontrollierbare 3D-Objektrekonstruktion und verschiedene andere Anwendungen bereit sind.
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.