ChatPaper.aiChatPaper

DreamComposer: Beheerbare 3D-objectgeneratie via multi-view condities

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

December 6, 2023
Auteurs: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI

Samenvatting

Door gebruik te maken van vooraf getrainde 2D grootschalige generatieve modellen, zijn recente werken in staat om hoogwaardige nieuwe aanzichten te genereren vanuit een enkele afbeelding uit de praktijk. Echter, door het gebrek aan informatie vanuit meerdere aanzichten, ondervinden deze werken moeilijkheden bij het genereren van controleerbare nieuwe aanzichten. In dit artikel presenteren we DreamComposer, een flexibel en schaalbaar raamwerk dat bestaande aanzicht-gevoelige diffusiemodellen kan verbeteren door multi-aanzicht condities in te brengen. Specifiek gebruikt DreamComposer eerst een aanzicht-gevoelige 3D-liftmodule om 3D-representaties van een object vanuit meerdere aanzichten te verkrijgen. Vervolgens worden de latente kenmerken van het doelaanzicht vanuit de 3D-representaties gerenderd met de multi-aanzicht kenmerkenfusiemodule. Ten slotte worden de doelaanzicht kenmerken die uit multi-aanzicht invoeren zijn geëxtraheerd, ingebracht in een vooraf getraind diffusiemodel. Experimenten tonen aan dat DreamComposer compatibel is met state-of-the-art diffusiemodellen voor zero-shot synthese van nieuwe aanzichten, waardoor ze verder worden verbeterd om hoogwaardige nieuwe aanzicht afbeeldingen te genereren met multi-aanzicht condities, klaar voor controleerbare 3D-objectreconstructie en diverse andere toepassingen.
English
Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications.
PDF90December 15, 2024