Inversão Textual de Ponto de Vista: Liberando a Síntese de Novas Perspectivas com Modelos de Difusão 2D Pré-treinados
Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
September 14, 2023
Autores: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI
Resumo
Modelos de difusão de texto para imagem compreendem as relações espaciais entre objetos, mas eles representam a verdadeira estrutura 3D do mundo a partir de apenas supervisão 2D? Demonstramos que sim, o conhecimento 3D está codificado em modelos de difusão de imagem 2D, como o Stable Diffusion, e mostramos que essa estrutura pode ser explorada para tarefas de visão 3D. Nosso método, Inversão Textual Neural com Ponto de Vista (ViewNeTI), controla o ponto de vista 3D de objetos em imagens geradas por modelos de difusão congelados. Treinamos um pequeno mapeador neural para receber parâmetros de ponto de vista da câmera e prever latentes do codificador de texto; esses latentes então condicionam o processo de geração por difusão para produzir imagens com o ponto de vista desejado da câmera.
O ViewNeTI aborda naturalmente a Síntese de Novos Pontos de Vista (NVS). Ao aproveitar o modelo de difusão congelado como um prior, podemos resolver NVS com muito poucas visualizações de entrada; podemos até realizar a síntese de novos pontos de vista com uma única visualização. Nossas previsões de NVS com uma única visualização apresentam bons detalhes semânticos e fotorrealismo em comparação com métodos anteriores. Nossa abordagem é bem adequada para modelar a incerteza inerente a problemas de visão 3D esparsa, pois pode gerar eficientemente amostras diversas. Nosso mecanismo de controle de ponto de vista é geral e pode até alterar o ponto de vista da câmera em imagens geradas por prompts definidos pelo usuário.
English
Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.