Inversión Textual de Punto de Vista: Liberando la Síntesis de Vistas Novedosas con Modelos de Difusión 2D Preentrenados
Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
September 14, 2023
Autores: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI
Resumen
Los modelos de difusión de texto a imagen comprenden las relaciones espaciales entre objetos, pero ¿representan la verdadera estructura 3D del mundo a partir de supervisión únicamente en 2D? Demostramos que sí, el conocimiento 3D está codificado en modelos de difusión de imágenes 2D como Stable Diffusion, y mostramos que esta estructura puede aprovecharse para tareas de visión 3D. Nuestro método, Inversión Textual Neuronal de Punto de Vista (ViewNeTI), controla el punto de vista 3D de objetos en imágenes generadas por modelos de difusión congelados. Entrenamos un pequeño mapeador neuronal para tomar parámetros de punto de vista de la cámara y predecir latentes del codificador de texto; estos latentes condicionan luego el proceso de generación de difusión para producir imágenes con el punto de vista de cámara deseado.
ViewNeTI aborda de manera natural la Síntesis de Nuevas Vistas (NVS). Al aprovechar el modelo de difusión congelado como un prior, podemos resolver NVS con muy pocas vistas de entrada; incluso podemos realizar síntesis de nuevas vistas a partir de una sola vista. Nuestras predicciones de NVS de una sola vista muestran buenos detalles semánticos y fotorrealismo en comparación con métodos anteriores. Nuestro enfoque es adecuado para modelar la incertidumbre inherente a los problemas de visión 3D dispersos, ya que puede generar eficientemente muestras diversas. Nuestro mecanismo de control de vista es general y puede incluso cambiar el punto de vista de la cámara en imágenes generadas por indicaciones definidas por el usuario.
English
Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.