Инверсия текстовых точек зрения: Раскрытие потенциала синтеза новых ракурсов с использованием предобученных 2D диффузионных моделей
Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
September 14, 2023
Авторы: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI
Аннотация
Модели диффузии текста в изображения понимают пространственные отношения между объектами, но действительно ли они представляют истинную 3D-структуру мира, обучаясь только на 2D-данных? Мы демонстрируем, что да, 3D-знания закодированы в 2D-моделях диффузии изображений, таких как Stable Diffusion, и показываем, что эту структуру можно использовать для задач 3D-видения. Наш метод, Viewpoint Neural Textual Inversion (ViewNeTI), управляет 3D-ракурсом объектов в изображениях, генерируемых замороженными моделями диффузии. Мы обучаем небольшой нейронный маппер, который принимает параметры ракурса камеры и предсказывает латентные векторы текстового кодировщика; эти векторы затем управляют процессом генерации диффузии для создания изображений с желаемым ракурсом камеры.
ViewNeTI естественным образом решает задачу синтеза новых ракурсов (Novel View Synthesis, NVS). Используя замороженную модель диффузии как априорное знание, мы можем решать задачу NVS с очень малым количеством входных видов; мы даже можем выполнять синтез новых ракурсов на основе одного изображения. Наши предсказания для NVS с одним входным изображением обладают хорошими семантическими деталями и фотореалистичностью по сравнению с предыдущими методами. Наш подход хорошо подходит для моделирования неопределённости, присущей задачам 3D-видения с малым количеством данных, так как он может эффективно генерировать разнообразные примеры. Наш механизм управления ракурсом универсален и может изменять вид камеры даже в изображениях, сгенерированных по пользовательским запросам.
English
Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.