Viewpoint Textual Inversion: Sbloccare la Sintesi di Nuove Prospettive con Modelli di Diffusione 2D Pre-addestrati

Abstract

I modelli di diffusione text-to-image comprendono le relazioni spaziali tra gli oggetti, ma rappresentano la vera struttura 3D del mondo partendo solo da supervisione 2D? Dimostriamo che sì, la conoscenza 3D è codificata nei modelli di diffusione di immagini 2D come Stable Diffusion, e mostriamo che questa struttura può essere sfruttata per compiti di visione 3D. Il nostro metodo, Viewpoint Neural Textual Inversion (ViewNeTI), controlla il punto di vista 3D degli oggetti nelle immagini generate da modelli di diffusione congelati. Addestriamo un piccolo mapper neurale per prendere i parametri del punto di vista della telecamera e prevedere i latenti del codificatore di testo; i latenti condizionano poi il processo di generazione della diffusione per produrre immagini con il punto di vista della telecamera desiderato. ViewNeTI affronta naturalmente la Sintesi di Nuove Viste (Novel View Synthesis, NVS). Sfruttando il modello di diffusione congelato come prior, possiamo risolvere il problema NVS con pochissime viste di input; possiamo persino fare la sintesi di nuove viste a partire da una singola vista. Le nostre previsioni NVS a singola vista presentano dettagli semantici e fotorealismo migliori rispetto ai metodi precedenti. Il nostro approccio è particolarmente adatto per modellare l'incertezza intrinseca ai problemi di visione 3D sparsa, poiché può generare in modo efficiente campioni diversi. Il nostro meccanismo di controllo della vista è generale e può persino cambiare il punto di vista della telecamera nelle immagini generate da prompt definiti dall'utente.

English

Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.

Viewpoint Textual Inversion: Sbloccare la Sintesi di Nuove Prospettive con Modelli di Diffusione 2D Pre-addestrati

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models

Abstract

Support