SyncDreamer: Генерация многовидовых согласованных изображений из одного изображения
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image
September 7, 2023
Авторы: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI
Аннотация
В данной статье мы представляем новую диффузионную модель, которая генерирует многовидовые согласованные изображения из одновидового изображения. Используя предобученные крупномасштабные 2D диффузионные модели, недавняя работа Zero123 демонстрирует возможность генерации правдоподобных новых видов из одновидового изображения объекта. Однако поддержание согласованности геометрии и цветов для генерируемых изображений остается сложной задачей. Для решения этой проблемы мы предлагаем синхронизированную многовидовую диффузионную модель, которая моделирует совместное распределение вероятностей многовидовых изображений, что позволяет генерировать согласованные многовидовые изображения в едином обратном процессе. SyncDreamer синхронизирует промежуточные состояния всех генерируемых изображений на каждом шаге обратного процесса с помощью 3D-ориентированного механизма внимания к признакам, который связывает соответствующие признаки в различных видах. Эксперименты показывают, что SyncDreamer генерирует изображения с высокой степенью согласованности между различными видами, что делает её хорошо подходящей для различных задач 3D-генерации, таких как синтез новых видов, текст-в-3D и изображение-в-3D.
English
In this paper, we present a novel diffusion model called that generates
multiview-consistent images from a single-view image. Using pretrained
large-scale 2D diffusion models, recent work Zero123 demonstrates the ability
to generate plausible novel views from a single-view image of an object.
However, maintaining consistency in geometry and colors for the generated
images remains a challenge. To address this issue, we propose a synchronized
multiview diffusion model that models the joint probability distribution of
multiview images, enabling the generation of multiview-consistent images in a
single reverse process. SyncDreamer synchronizes the intermediate states of all
the generated images at every step of the reverse process through a 3D-aware
feature attention mechanism that correlates the corresponding features across
different views. Experiments show that SyncDreamer generates images with high
consistency across different views, thus making it well-suited for various 3D
generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.