MVDiffusion:対応認識型拡散モデルによる包括的なマルチビュー画像生成の実現
MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
July 3, 2023
著者: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI
要旨
本論文では、MVDiffusionを紹介する。これは、パノラマからの視点切り抜きやジオメトリ(深度マップとポーズ)が与えられた多視点画像など、ピクセル間の対応関係が利用可能なシナリオにおいて、シンプルかつ効果的な多視点画像生成手法である。従来のモデルが反復的な画像ワーピングとインペインティングに依存していたのに対し、MVDiffusionはすべての画像を並列的に生成し、高解像度かつ豊富な内容を包含するグローバルな認識を持つことで、先行モデルに顕著だった誤差蓄積の問題を効果的に解決する。MVDiffusionは特に、対応関係を意識したアテンションメカニズムを組み込んでおり、効果的なクロスビュー相互作用を可能にする。このメカニズムは、以下の3つの重要なモジュールを支えている:1)グローバルな対応関係を維持しながら低解像度画像を生成する生成モジュール、2)画像間の空間的カバレッジを密にする補間モジュール、3)高解像度出力にアップスケールする超解像モジュール。パノラマ画像に関しては、MVDiffusionは1024×1024ピクセルまでの高解像度フォトリアリスティック画像を生成できる。ジオメトリ条件付きの多視点画像生成においては、MVDiffusionはシーンメッシュのテクスチャマップを生成できる初の手法としてその能力を示す。プロジェクトページはhttps://mvdiffusion.github.ioにて公開されている。
English
This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024times1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.