ChatPaper.aiChatPaper

SyncDreamer: Geração de Imagens Multivista Consistentes a partir de uma Única Vista de Imagem

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image

September 7, 2023
Autores: Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang
cs.AI

Resumo

Neste artigo, apresentamos um novo modelo de difusão chamado SyncDreamer que gera imagens multivista consistentes a partir de uma imagem de vista única. Utilizando modelos de difusão 2D em larga escala pré-treinados, trabalhos recentes como o Zero123 demonstram a capacidade de gerar novas vistas plausíveis a partir de uma imagem de vista única de um objeto. No entanto, manter a consistência na geometria e nas cores das imagens geradas continua sendo um desafio. Para resolver esse problema, propomos um modelo de difusão multivista sincronizado que modela a distribuição de probabilidade conjunta de imagens multivista, permitindo a geração de imagens multivista consistentes em um único processo reverso. O SyncDreamer sincroniza os estados intermediários de todas as imagens geradas em cada etapa do processo reverso por meio de um mecanismo de atenção de características 3D que correlaciona as características correspondentes em diferentes vistas. Experimentos mostram que o SyncDreamer gera imagens com alta consistência entre diferentes vistas, tornando-o adequado para várias tarefas de geração 3D, como síntese de novas vistas, texto-para-3D e imagem-para-3D.
English
In this paper, we present a novel diffusion model called that generates multiview-consistent images from a single-view image. Using pretrained large-scale 2D diffusion models, recent work Zero123 demonstrates the ability to generate plausible novel views from a single-view image of an object. However, maintaining consistency in geometry and colors for the generated images remains a challenge. To address this issue, we propose a synchronized multiview diffusion model that models the joint probability distribution of multiview images, enabling the generation of multiview-consistent images in a single reverse process. SyncDreamer synchronizes the intermediate states of all the generated images at every step of the reverse process through a 3D-aware feature attention mechanism that correlates the corresponding features across different views. Experiments show that SyncDreamer generates images with high consistency across different views, thus making it well-suited for various 3D generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.
PDF135December 15, 2024