MVInpainter: 2Dと3D編集を橋渡しするマルチビュー整合性インペインティングの学習
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
著者: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
要旨
新規視点合成(Novel View Synthesis, NVS)と3D生成は最近、顕著な進歩を遂げています。しかし、これらの研究は主に限定されたカテゴリや合成された3Dアセットに焦点を当てており、挑戦的な実世界のシーンへの一般化が難しく、2D合成と直接組み合わせることができません。さらに、これらの手法はカメラポーズに大きく依存しており、実世界での応用が制限されています。これらの課題を克服するため、我々はMVInpainterを提案し、3D編集をマルチビュー2Dインペインティングタスクとして再定式化します。具体的には、MVInpainterは完全に新しい視点をゼロから生成するのではなく、参照ガイダンスを用いてマルチビュー画像を部分的にインペイントすることで、実世界のNVSの難易度を大幅に簡素化し、明示的なポーズ条件ではなくマスクされていない手がかりを活用します。クロスビュー一貫性を確保するため、MVInpainterはモーションコンポーネントからのビデオ事前情報と、連結された参照キー&バリューアテンションからの外観ガイダンスによって強化されています。さらに、MVInpainterはスロットアテンションを組み込み、マスクされていない領域から高レベルのオプティカルフローフィーチャーを集約し、ポーズフリーのトレーニングと推論でカメラの動きを制御します。オブジェクト中心および前方指向のデータセットにおける十分なシーンレベルの実験により、MVInpainterの有効性が検証されました。これには、マルチビューオブジェクトの除去、合成、挿入、置換などの多様なタスクが含まれます。プロジェクトページはhttps://ewrfcas.github.io/MVInpainter/です。
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.Summary
AI-Generated Summary