Viewpoint Textual Inversion: Entfesselung der neuartigen Ansichtssynthese mit vortrainierten 2D-Diffusionsmodellen
Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
September 14, 2023
Autoren: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle verstehen räumliche Beziehungen zwischen Objekten, aber repräsentieren sie die wahre 3D-Struktur der Welt allein durch 2D-Aufsicht? Wir zeigen, dass ja, 3D-Wissen in 2D-Bilddiffusionsmodellen wie Stable Diffusion kodiert ist, und wir demonstrieren, dass diese Struktur für 3D-Vision-Aufgaben genutzt werden kann. Unsere Methode, Viewpoint Neural Textual Inversion (ViewNeTI), steuert den 3D-Blickwinkel von Objekten in generierten Bildern aus eingefrorenen Diffusionsmodellen. Wir trainieren einen kleinen neuronalen Mapper, der Kamerablickwinkelparameter nimmt und Textencoder-Latents vorhersagt; diese Latents konditionieren dann den Diffusionsgenerierungsprozess, um Bilder mit dem gewünschten Kamerablickwinkel zu erzeugen.
ViewNeTI adressiert auf natürliche Weise Novel View Synthesis (NVS). Indem wir das eingefrorene Diffusionsmodell als Prior nutzen, können wir NVS mit sehr wenigen Eingabeansichten lösen; wir können sogar Einzelansicht-Novel View Synthesis durchführen. Unsere Einzelansicht-NVS-Vorhersagen weisen im Vergleich zu früheren Methoden gute semantische Details und Fotorealismus auf. Unser Ansatz eignet sich gut zur Modellierung der Unsicherheit, die inhärent in spärlichen 3D-Vision-Problemen ist, da er effizient diverse Samples erzeugen kann. Unser Blickwinkelsteuerungsmechanismus ist allgemeingültig und kann sogar den Kamerablickwinkel in Bildern ändern, die durch benutzerdefinierte Prompts generiert wurden.
English
Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.