ChatPaper.aiChatPaper

Inversión Textual de Punto de Vista: Liberando la Síntesis de Vistas Novedosas con Modelos de Difusión 2D Preentrenados

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models

September 14, 2023
Autores: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI

Resumen

Los modelos de difusión de texto a imagen comprenden las relaciones espaciales entre objetos, pero ¿representan la verdadera estructura 3D del mundo a partir de supervisión únicamente en 2D? Demostramos que sí, el conocimiento 3D está codificado en modelos de difusión de imágenes 2D como Stable Diffusion, y mostramos que esta estructura puede aprovecharse para tareas de visión 3D. Nuestro método, Inversión Textual Neuronal de Punto de Vista (ViewNeTI), controla el punto de vista 3D de objetos en imágenes generadas por modelos de difusión congelados. Entrenamos un pequeño mapeador neuronal para tomar parámetros de punto de vista de la cámara y predecir latentes del codificador de texto; estos latentes condicionan luego el proceso de generación de difusión para producir imágenes con el punto de vista de cámara deseado. ViewNeTI aborda de manera natural la Síntesis de Nuevas Vistas (NVS). Al aprovechar el modelo de difusión congelado como un prior, podemos resolver NVS con muy pocas vistas de entrada; incluso podemos realizar síntesis de nuevas vistas a partir de una sola vista. Nuestras predicciones de NVS de una sola vista muestran buenos detalles semánticos y fotorrealismo en comparación con métodos anteriores. Nuestro enfoque es adecuado para modelar la incertidumbre inherente a los problemas de visión 3D dispersos, ya que puede generar eficientemente muestras diversas. Nuestro mecanismo de control de vista es general y puede incluso cambiar el punto de vista de la cámara en imágenes generadas por indicaciones definidas por el usuario.
English
Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.
PDF41December 15, 2024