MoCam : Synthèse unifiée de nouvelles vues via des dynamiques de débruitage structurées
MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics
May 12, 2026
Auteurs: Haofeng Liu, Yang Zhou, Ziheng Wang, Zhengbo Xu, Zhan Peng, Jie Ma, Jun Liang, Shengfeng He, Jing Li
cs.AI
Résumé
La synthèse générative de nouvelles vues se heurte à un dilemme fondamental : les a priori géométriques assurent un alignement spatial mais deviennent épars et imprécis face aux changements de vue, tandis que les a priori d'apparence offrent une fidélité visuelle mais manquent de correspondance géométrique. Les méthodes existantes propagent soit les erreurs géométriques tout au long de la génération, soit souffrent de conflits de signaux lors de la fusion statique des deux types d'a priori. Nous présentons MoCam, qui utilise des dynamiques de débruitage structurées pour orchestrer une progression coordonnée de la géométrie vers l'apparence au sein du processus de diffusion. MoCam exploite d'abord les a priori géométriques dans les premières étapes pour ancrer les structures grossières et tolérer leur incomplétude, puis bascule vers les a priori d'apparence dans les étapes ultérieures pour corriger activement les erreurs géométriques et affiner les détails. Cette conception unifie naturellement la synthèse de vues statiques et dynamiques en découplant temporellement l'alignement géométrique et le raffinement de l'apparence au sein du processus de diffusion. Les expériences montrent que MoCam surpasse significativement les méthodes antérieures, en particulier lorsque les nuages de points présentent des trous sévères ou des distorsions, réalisant ainsi un désentrelacement robuste entre géométrie et apparence.
English
Generative novel view synthesis faces a fundamental dilemma: geometric priors provide spatial alignment but become sparse and inaccurate under view changes, while appearance priors offer visual fidelity but lack geometric correspondence. Existing methods either propagate geometric errors throughout generation or suffer from signal conflicts when fusing both statically. We introduce MoCam, which employs structured denoising dynamics to orchestrate a coordinated progression from geometry to appearance within the diffusion process.MoCam first leverages geometric priors in early stages to anchor coarse structures and tolerate their incompleteness, then switches to appearance priors in later stages to actively correct geometric errors and refine details. This design naturally unifies static and dynamic view synthesis by temporally decoupling geometric alignment and appearance refinement within the diffusion process.Experiments demonstrate that MoCam significantly outperforms prior methods, particularly when point clouds contain severe holes or distortions, achieving robust geometry-appearance disentanglement.