Inversion Textuelle de Point de Vue : Libérer la Synthèse de Vues Novatrices avec des Modèles de Diffusion 2D Préentraînés
Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
September 14, 2023
Auteurs: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI
Résumé
Les modèles de diffusion texte-image comprennent les relations spatiales entre les objets, mais représentent-ils véritablement la structure 3D du monde à partir d'une supervision uniquement 2D ? Nous démontrons que oui, les connaissances 3D sont encodées dans les modèles de diffusion d'images 2D comme Stable Diffusion, et nous montrons que cette structure peut être exploitée pour des tâches de vision 3D. Notre méthode, Viewpoint Neural Textual Inversion (ViewNeTI), contrôle le point de vue 3D des objets dans les images générées par des modèles de diffusion figés. Nous entraînons un petit réseau de mappage à prendre en compte les paramètres du point de vue de la caméra et à prédire les latents de l'encodeur de texte ; ces latents conditionnent ensuite le processus de génération par diffusion pour produire des images avec le point de vue de caméra souhaité.
ViewNeTI aborde naturellement la synthèse de nouvelles vues (Novel View Synthesis, NVS). En exploitant le modèle de diffusion figé comme un a priori, nous pouvons résoudre le NVS avec très peu de vues d'entrée ; nous pouvons même réaliser une synthèse de nouvelles vues à partir d'une seule vue. Nos prédictions de NVS à vue unique présentent de bons détails sémantiques et un photoréalisme supérieurs aux méthodes précédentes. Notre approche est bien adaptée pour modéliser l'incertitude inhérente aux problèmes de vision 3D éparse, car elle peut générer efficacement des échantillons diversifiés. Notre mécanisme de contrôle du point de vue est général et peut même modifier la vue de la caméra dans les images générées par des invites définies par l'utilisateur.
English
Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.