ChatPaper.aiChatPaper

MVDiffusion: Ermöglichung ganzheitlicher Multi-View-Bildgenerierung mit korrespondenzbewusster Diffusion

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

July 3, 2023
Autoren: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI

Zusammenfassung

Dieses Papier stellt MVDiffusion vor, eine einfache, aber effektive Methode zur Multi-View-Bildgenerierung für Szenarien, in denen Pixel-zu-Pixel-Korrespondenzen verfügbar sind, wie beispielsweise perspektivische Ausschnitte aus Panoramen oder Multi-View-Bildern mit vorgegebener Geometrie (Tiefenkarten und Kameraposen). Im Gegensatz zu früheren Modellen, die auf iterativer Bildverzerrung und Inpainting basieren, generiert MVDiffusion alle Bilder gleichzeitig mit einem globalen Bewusstsein, das hohe Auflösung und reichhaltige Inhalte umfasst, und behebt effektiv die Fehlerakkumulation, die in früheren Modellen vorherrschte. MVDiffusion integriert speziell einen korrespondenzbewussten Aufmerksamkeitsmechanismus, der eine effektive interaktive Kommunikation zwischen den Ansichten ermöglicht. Dieser Mechanismus unterstützt drei zentrale Module: 1) ein Generierungsmodul, das niedrigauflösende Bilder erzeugt und dabei globale Korrespondenzen beibehält, 2) ein Interpolationsmodul, das die räumliche Abdeckung zwischen den Bildern verdichtet, und 3) ein Super-Resolution-Modul, das die Bilder in hochauflösende Ausgaben hochskaliert. Im Hinblick auf Panoramabilder kann MVDiffusion hochauflösende, fotorealistische Bilder bis zu 1024x1024 Pixeln erzeugen. Für die geometrie-bedingte Multi-View-Bildgenerierung zeigt MVDiffusion die erste Methode, die in der Lage ist, eine texturierte Karte eines Szenen-Meshes zu generieren. Die Projektseite befindet sich unter https://mvdiffusion.github.io.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024times1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
PDF100December 15, 2024