ChatPaper.aiChatPaper

MVDiffusion:対応を考慮した拡散モデルによる包括的なマルチビュー画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

July 3, 2023
著者: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI

要旨

本論文は、パノラマからの透視投影クロップやジオメトリ(深度マップと姿勢)が与えられた多視点画像など、ピクセル間対応が利用可能なシナリオにおける、シンプルかつ効果的な多視点画像生成手法MVDiffusionを提案する。従来の反復的な画像ワーピングとインペインティングに依存するモデルとは異なり、MVDiffusionは高解像度かつ豊富なコンテンツを包含する大域的な認識を持って全ての画像を同時生成し、従来モデルに共通する誤差蓄積問題を効果的に解決する。MVDiffusionは特に、効果的な視点間相互作用を可能にする対応認識注意機構を組み込んでおり、この機構が以下の3つの重要モジュールを支えている:1)大域的な対応を維持しながら低解像度画像を生成する生成モジュール、2)画像間の空間的な被覆密度を高める補間モジュール、3)高解像度出力へアップスケールする超解像モジュール。パノラマ画像生成においては、MVDiffusionは1024×1024ピクセルまでの高解像度フォトリアルな画像を生成可能である。ジオメトリ条件付き多視点画像生成においては、MVDiffusionはシーンメッシュのテクスチャマップを生成可能な初の手法としてその性能を実証する。プロジェクトページはhttps://mvdiffusion.github.ioにて公開されている。
English
This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024times1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
PDF100December 15, 2024