Инверсия текстовых точек зрения: Раскрытие потенциала синтеза новых ракурсов с использованием предобученных 2D диффузионных моделей

Аннотация

Модели диффузии текста в изображения понимают пространственные отношения между объектами, но действительно ли они представляют истинную 3D-структуру мира, обучаясь только на 2D-данных? Мы демонстрируем, что да, 3D-знания закодированы в 2D-моделях диффузии изображений, таких как Stable Diffusion, и показываем, что эту структуру можно использовать для задач 3D-видения. Наш метод, Viewpoint Neural Textual Inversion (ViewNeTI), управляет 3D-ракурсом объектов в изображениях, генерируемых замороженными моделями диффузии. Мы обучаем небольшой нейронный маппер, который принимает параметры ракурса камеры и предсказывает латентные векторы текстового кодировщика; эти векторы затем управляют процессом генерации диффузии для создания изображений с желаемым ракурсом камеры. ViewNeTI естественным образом решает задачу синтеза новых ракурсов (Novel View Synthesis, NVS). Используя замороженную модель диффузии как априорное знание, мы можем решать задачу NVS с очень малым количеством входных видов; мы даже можем выполнять синтез новых ракурсов на основе одного изображения. Наши предсказания для NVS с одним входным изображением обладают хорошими семантическими деталями и фотореалистичностью по сравнению с предыдущими методами. Наш подход хорошо подходит для моделирования неопределённости, присущей задачам 3D-видения с малым количеством данных, так как он может эффективно генерировать разнообразные примеры. Наш механизм управления ракурсом универсален и может изменять вид камеры даже в изображениях, сгенерированных по пользовательским запросам.

English

Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.

Инверсия текстовых точек зрения: Раскрытие потенциала синтеза новых ракурсов с использованием предобученных 2D диффузионных моделей

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models

Аннотация

Support