MVDiffusion: Mogelijk maken van holistische multi-view beeldgeneratie met correspondentiebewuste diffusie
MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
July 3, 2023
Auteurs: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI
Samenvatting
Dit artikel introduceert MVDiffusion, een eenvoudige maar effectieve methode voor het genereren van multi-view afbeeldingen in scenario's waar pixel-voor-pixel correspondentie beschikbaar is, zoals perspectief uitsneden van panorama's of multi-view afbeeldingen met gegeven geometrie (dieptekaarten en posities). In tegenstelling tot eerdere modellen die vertrouwen op iteratieve beeldvervorming en inpainting, genereert MVDiffusion alle afbeeldingen gelijktijdig met een globaal bewustzijn, waarbij hoge resolutie en rijke inhoud worden omvat, waardoor de foutaccumulatie die in voorgaande modellen voorkomt effectief wordt aangepakt. MVDiffusion integreert specifiek een correspondentiebewust aandachtmechanisme, dat effectieve kruisview-interactie mogelijk maakt. Dit mechanisme ondersteunt drie cruciale modules: 1) een generatiemodule die afbeeldingen met lage resolutie produceert terwijl globale correspondentie wordt behouden, 2) een interpolatiemodule die de ruimtelijke dekking tussen afbeeldingen verdicht, en 3) een superresolutiemodule die opschaalt naar uitvoer met hoge resolutie. Wat betreft panoramische beelden kan MVDiffusion hoogwaardige, fotorealistische afbeeldingen genereren tot 1024x1024 pixels. Voor geometrie-geconditioneerde multi-view beeldgeneratie toont MVDiffusion de eerste methode die in staat is een getextureerde kaart van een scènemesh te genereren. De projectpagina is te vinden op https://mvdiffusion.github.io.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024times1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.