MoCam: Síntesis unificada de nuevas vistas mediante dinámicas estructuradas de denoising
MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics
May 12, 2026
Autores: Haofeng Liu, Yang Zhou, Ziheng Wang, Zhengbo Xu, Zhan Peng, Jie Ma, Jun Liang, Shengfeng He, Jing Li
cs.AI
Resumen
La síntesis generativa de nuevas vistas enfrenta un dilema fundamental: las prioridades geométricas proporcionan alineación espacial pero se vuelven dispersas e imprecisas ante cambios de vista, mientras que las prioridades de apariencia ofrecen fidelidad visual pero carecen de correspondencia geométrica. Los métodos existentes o propagan errores geométricos durante toda la generación o sufren conflictos de señal al fusionar ambas estáticamente. Presentamos MoCam, que emplea dinámicas estructuradas de eliminación de ruido para orquestar una progresión coordinada desde la geometría hacia la apariencia dentro del proceso de difusión. MoCam primero aprovecha las prioridades geométricas en etapas tempranas para anclar estructuras gruesas y tolerar su incompletitud, luego cambia a prioridades de apariencia en etapas posteriores para corregir activamente errores geométricos y refinar detalles. Este diseño unifica naturalmente la síntesis de vistas estáticas y dinámicas al desacoplar temporalmente la alineación geométrica y el refinamiento de apariencia dentro del proceso de difusión. Los experimentos demuestran que MoCam supera significativamente a los métodos anteriores, particularmente cuando las nubes de puntos contienen agujeros o distorsiones severas, logrando un desacoplamiento robusto entre geometría y apariencia.
English
Generative novel view synthesis faces a fundamental dilemma: geometric priors provide spatial alignment but become sparse and inaccurate under view changes, while appearance priors offer visual fidelity but lack geometric correspondence. Existing methods either propagate geometric errors throughout generation or suffer from signal conflicts when fusing both statically. We introduce MoCam, which employs structured denoising dynamics to orchestrate a coordinated progression from geometry to appearance within the diffusion process.MoCam first leverages geometric priors in early stages to anchor coarse structures and tolerate their incompleteness, then switches to appearance priors in later stages to actively correct geometric errors and refine details. This design naturally unifies static and dynamic view synthesis by temporally decoupling geometric alignment and appearance refinement within the diffusion process.Experiments demonstrate that MoCam significantly outperforms prior methods, particularly when point clouds contain severe holes or distortions, achieving robust geometry-appearance disentanglement.