Inversão Textual de Ponto de Vista: Liberando a Síntese de Novas Perspectivas com Modelos de Difusão 2D Pré-treinados

Resumo

Modelos de difusão de texto para imagem compreendem as relações espaciais entre objetos, mas eles representam a verdadeira estrutura 3D do mundo a partir de apenas supervisão 2D? Demonstramos que sim, o conhecimento 3D está codificado em modelos de difusão de imagem 2D, como o Stable Diffusion, e mostramos que essa estrutura pode ser explorada para tarefas de visão 3D. Nosso método, Inversão Textual Neural com Ponto de Vista (ViewNeTI), controla o ponto de vista 3D de objetos em imagens geradas por modelos de difusão congelados. Treinamos um pequeno mapeador neural para receber parâmetros de ponto de vista da câmera e prever latentes do codificador de texto; esses latentes então condicionam o processo de geração por difusão para produzir imagens com o ponto de vista desejado da câmera. O ViewNeTI aborda naturalmente a Síntese de Novos Pontos de Vista (NVS). Ao aproveitar o modelo de difusão congelado como um prior, podemos resolver NVS com muito poucas visualizações de entrada; podemos até realizar a síntese de novos pontos de vista com uma única visualização. Nossas previsões de NVS com uma única visualização apresentam bons detalhes semânticos e fotorrealismo em comparação com métodos anteriores. Nossa abordagem é bem adequada para modelar a incerteza inerente a problemas de visão 3D esparsa, pois pode gerar eficientemente amostras diversas. Nosso mecanismo de controle de ponto de vista é geral e pode até alterar o ponto de vista da câmera em imagens geradas por prompts definidos pelo usuário.

English

Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.

Inversão Textual de Ponto de Vista: Liberando a Síntese de Novas Perspectivas com Modelos de Difusão 2D Pré-treinados

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models

Resumo

Support