ChatPaper.aiChatPaper

MVDiffusion : Permettre la génération holistique d'images multi-vues avec une diffusion consciente des correspondances

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

July 3, 2023
Auteurs: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI

Résumé

Cet article présente MVDiffusion, une méthode simple mais efficace de génération d'images multi-vues pour des scénarios où des correspondances pixel-à-pixel sont disponibles, telles que des recadrages perspectifs à partir de panoramas ou d'images multi-vues avec géométrie donnée (cartes de profondeur et poses). Contrairement aux modèles précédents qui reposent sur un déformation et un inpainting itératifs des images, MVDiffusion génère simultanément toutes les images avec une conscience globale, englobant une haute résolution et un contenu riche, résolvant efficacement l'accumulation d'erreurs prévalente dans les modèles antérieurs. MVDiffusion intègre spécifiquement un mécanisme d'attention sensible aux correspondances, permettant une interaction efficace entre les vues. Ce mécanisme soutient trois modules pivots : 1) un module de génération qui produit des images en basse résolution tout en maintenant une correspondance globale, 2) un module d'interpolation qui densifie la couverture spatiale entre les images, et 3) un module de super-résolution qui augmente la résolution pour obtenir des sorties en haute résolution. En termes d'imagerie panoramique, MVDiffusion peut générer des images photoréalistes en haute résolution jusqu'à 1024x1024 pixels. Pour la génération d'images multi-vues conditionnées par la géométrie, MVDiffusion démontre la première méthode capable de générer une carte texturée d'un maillage de scène. La page du projet est disponible à l'adresse https://mvdiffusion.github.io.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024times1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
PDF100December 15, 2024