ChatPaper.aiChatPaper

Viewpoint Textual Inversion: Entfesselung der neuartigen Ansichtssynthese mit vortrainierten 2D-Diffusionsmodellen

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models

September 14, 2023
Autoren: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle verstehen räumliche Beziehungen zwischen Objekten, aber repräsentieren sie die wahre 3D-Struktur der Welt allein durch 2D-Aufsicht? Wir zeigen, dass ja, 3D-Wissen in 2D-Bilddiffusionsmodellen wie Stable Diffusion kodiert ist, und wir demonstrieren, dass diese Struktur für 3D-Vision-Aufgaben genutzt werden kann. Unsere Methode, Viewpoint Neural Textual Inversion (ViewNeTI), steuert den 3D-Blickwinkel von Objekten in generierten Bildern aus eingefrorenen Diffusionsmodellen. Wir trainieren einen kleinen neuronalen Mapper, der Kamerablickwinkelparameter nimmt und Textencoder-Latents vorhersagt; diese Latents konditionieren dann den Diffusionsgenerierungsprozess, um Bilder mit dem gewünschten Kamerablickwinkel zu erzeugen. ViewNeTI adressiert auf natürliche Weise Novel View Synthesis (NVS). Indem wir das eingefrorene Diffusionsmodell als Prior nutzen, können wir NVS mit sehr wenigen Eingabeansichten lösen; wir können sogar Einzelansicht-Novel View Synthesis durchführen. Unsere Einzelansicht-NVS-Vorhersagen weisen im Vergleich zu früheren Methoden gute semantische Details und Fotorealismus auf. Unser Ansatz eignet sich gut zur Modellierung der Unsicherheit, die inhärent in spärlichen 3D-Vision-Problemen ist, da er effizient diverse Samples erzeugen kann. Unser Blickwinkelsteuerungsmechanismus ist allgemeingültig und kann sogar den Kamerablickwinkel in Bildern ändern, die durch benutzerdefinierte Prompts generiert wurden.
English
Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.
PDF41December 15, 2024