ChatPaper.aiChatPaper

Viewpoint Textual Inversie: Het Ontketenen van Nieuwe View Synthese met Voorgetrainde 2D Diffusiemodellen

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models

September 14, 2023
Auteurs: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI

Samenvatting

Text-to-image diffusiemodellen begrijpen ruimtelijke relaties tussen objecten, maar representeren ze ook de echte 3D-structuur van de wereld met alleen 2D-supervisie? Wij tonen aan dat ja, 3D-kennis is gecodeerd in 2D-beelddiffusiemodellen zoals Stable Diffusion, en we laten zien dat deze structuur kan worden benut voor 3D-visietaken. Onze methode, Viewpoint Neural Textual Inversion (ViewNeTI), controleert het 3D-gezichtspunt van objecten in gegenereerde afbeeldingen uit bevroren diffusiemodellen. We trainen een kleine neurale mapper om cameragezichtspuntparameters te nemen en tekstencoderlatenten te voorspellen; deze latenten conditioneren vervolgens het diffusiegeneratieproces om afbeeldingen te produceren met het gewenste cameragezichtspunt. ViewNeTI behandelt van nature Novel View Synthesis (NVS). Door het bevroren diffusiemodel als prior te benutten, kunnen we NVS oplossen met zeer weinig invoerweergaven; we kunnen zelfs single-view novel view synthesis uitvoeren. Onze single-view NVS-voorspellingen hebben goede semantische details en fotorealisme in vergelijking met eerdere methoden. Onze aanpak is goed geschikt voor het modelleren van de onzekerheid die inherent is aan schaarse 3D-visieproblemen, omdat het efficiënt diverse samples kan genereren. Ons gezichtspuntcontrolemecanisme is algemeen en kan zelfs het cameragezicht veranderen in afbeeldingen die gegenereerd zijn door door de gebruiker gedefinieerde prompts.
English
Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.
PDF41December 15, 2024