ChatPaper.aiChatPaper

MVDifusión: Habilitando la Generación Holística de Imágenes Multi-vista con Difusión Consciente de Correspondencias

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

July 3, 2023
Autores: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI

Resumen

Este artículo presenta MVDiffusion, un método simple pero efectivo para la generación de imágenes multi-vista en escenarios donde están disponibles correspondencias píxel a píxel, como recortes de perspectiva a partir de panoramas o imágenes multi-vista con geometría dada (mapas de profundidad y poses). A diferencia de modelos anteriores que dependen de deformaciones iterativas de imágenes y técnicas de inpainting, MVDiffusion genera todas las imágenes de manera concurrente con una conciencia global, abarcando alta resolución y contenido rico, abordando eficazmente la acumulación de errores prevalente en modelos precedentes. MVDiffusion incorpora específicamente un mecanismo de atención consciente de correspondencias, permitiendo una interacción efectiva entre vistas. Este mecanismo sustenta tres módulos clave: 1) un módulo de generación que produce imágenes de baja resolución manteniendo correspondencias globales, 2) un módulo de interpolación que densifica la cobertura espacial entre imágenes, y 3) un módulo de super-resolución que escala las imágenes a salidas de alta resolución. En términos de imágenes panorámicas, MVDiffusion puede generar imágenes fotorrealistas de alta resolución de hasta 1024x1024 píxeles. Para la generación de imágenes multi-vista condicionadas por geometría, MVDiffusion demuestra ser el primer método capaz de generar un mapa texturizado de una malla de escena. La página del proyecto se encuentra en https://mvdiffusion.github.io.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024times1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
PDF100December 15, 2024