MoCam: 構造化デノイジングダイナミクスによる統一的新規ビュー合成
MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics
May 12, 2026
著者: Haofeng Liu, Yang Zhou, Ziheng Wang, Zhengbo Xu, Zhan Peng, Jie Ma, Jun Liang, Shengfeng He, Jing Li
cs.AI
要旨
生成的ニューラルビュー合成は根本的なジレンマに直面している:幾何学事前分布は空間的な位置合わせを提供するが、視点変化の下では疎で不正確になり、一方、外観事前分布は視覚的忠実度を提供するが、幾何学的対応関係を欠いている。既存手法は、生成全体にわたって幾何学誤差を伝播させるか、両方を静的に融合する際に信号競合を被るかのいずれかである。我々はMoCamを導入する。これは構造化されたノイズ除去ダイナミクスを用いて、拡散プロセス内で幾何学から外観への協調的な進行を調整する。MoCamはまず初期段階で幾何学事前分布を活用し、粗い構造を固定してその不完全性を許容し、後期段階で外観事前分布に切り替えて幾何学誤差を積極的に修正し、詳細を洗練する。この設計は、拡散プロセス内で幾何学的アライメントと外観洗練を時間的に分離することにより、静的および動的ビュー合成を自然に統合する。実験により、MoCamは特に点群に深刻な穴や歪みが含まれる場合に、従来手法を大幅に上回り、ロバストな幾何学-外観分離を達成することが示された。
English
Generative novel view synthesis faces a fundamental dilemma: geometric priors provide spatial alignment but become sparse and inaccurate under view changes, while appearance priors offer visual fidelity but lack geometric correspondence. Existing methods either propagate geometric errors throughout generation or suffer from signal conflicts when fusing both statically. We introduce MoCam, which employs structured denoising dynamics to orchestrate a coordinated progression from geometry to appearance within the diffusion process.MoCam first leverages geometric priors in early stages to anchor coarse structures and tolerate their incompleteness, then switches to appearance priors in later stages to actively correct geometric errors and refine details. This design naturally unifies static and dynamic view synthesis by temporally decoupling geometric alignment and appearance refinement within the diffusion process.Experiments demonstrate that MoCam significantly outperforms prior methods, particularly when point clouds contain severe holes or distortions, achieving robust geometry-appearance disentanglement.