MVDiffusion: Habilitando a Geração Holística de Imagens Multi-visão com Difusão Consciente de Correspondência
MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
July 3, 2023
Autores: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI
Resumo
Este artigo apresenta o MVDiffusion, um método simples, porém eficaz, para geração de imagens multi-visão em cenários onde correspondências pixel-a-pixel estão disponíveis, como cortes perspectivos de panoramas ou imagens multi-visão com geometria fornecida (mapas de profundidade e poses). Diferente de modelos anteriores que dependem de deformação iterativa de imagens e preenchimento de lacunas, o MVDiffusion gera todas as imagens simultaneamente com uma consciência global, abrangendo alta resolução e conteúdo rico, abordando efetivamente o acúmulo de erros prevalecente em modelos anteriores. O MVDiffusion incorpora especificamente um mecanismo de atenção consciente de correspondência, permitindo uma interação eficaz entre as visões. Esse mecanismo sustenta três módulos fundamentais: 1) um módulo de geração que produz imagens de baixa resolução mantendo a correspondência global, 2) um módulo de interpolação que densifica a cobertura espacial entre as imagens, e 3) um módulo de super-resolução que amplia as imagens para saídas de alta resolução. Em termos de imagens panorâmicas, o MVDiffusion pode gerar imagens foto-realísticas de alta resolução de até 1024x1024 pixels. Para a geração de imagens multi-visão condicionadas por geometria, o MVDiffusion demonstra ser o primeiro método capaz de gerar um mapa texturizado de uma malha de cena. A página do projeto está disponível em https://mvdiffusion.github.io.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024times1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.