NVComposer: 複数の疎な未ポーズ画像を用いた生成的な新しい視点合成の向上
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
著者: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
要旨
最近の生成モデルの進歩により、多視点データからの新しい視点合成(NVS)が大幅に改善されました。ただし、既存の手法は、明示的な姿勢推定や事前再構築などの外部の多視点整列プロセスに依存しており、整列が不安定である場合、たとえば重なりが不十分であるか視点間に遮蔽物がある場合など、柔軟性とアクセシビリティが制限されます。本論文では、明示的な外部整列が不要な新しいアプローチであるNVComposerを提案します。NVComposerは、2つの主要なコンポーネントを導入することで、生成モデルが複数の条件付きビュー間の空間的および幾何学的関係を暗黙的に推論できるようにします。それらは、1) 同時に目標の新しいビューを生成し条件となるカメラの姿勢を生成する画像-姿勢デュアルストリーム拡散モデル、および2) 訓練中に密なステレオモデルから幾何学的事前知識を抽出するジオメトリに注意した特徴整列モジュールです。幅広い実験により、NVComposerが生成的多視点NVSタスクで最先端の性能を達成し、外部整列への依存を排除し、モデルのアクセシビリティを向上させることが示されました。提案手法は、未設定の入力ビュー数が増加するにつれて合成品質が著しく向上し、より柔軟でアクセス可能な生成的NVSシステムの可能性を示しています。
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary