MoCam: Унифицированный синтез новых видов посредством структурированной динамики шумоподавления
MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics
May 12, 2026
Авторы: Haofeng Liu, Yang Zhou, Ziheng Wang, Zhengbo Xu, Zhan Peng, Jie Ma, Jun Liang, Shengfeng He, Jing Li
cs.AI
Аннотация
Генеративный синтез новых видов сталкивается с фундаментальной дилеммой: геометрические априорные данные обеспечивают пространственное выравнивание, но становятся разреженными и неточными при изменении ракурса, в то время как априорные данные о внешнем виде обеспечивают визуальную точность, но лишены геометрического соответствия. Существующие методы либо распространяют геометрические ошибки на протяжении всего процесса генерации, либо страдают от конфликта сигналов при статическом объединении обоих типов данных. Мы представляем MoCam, который использует структурированную динамику шумоподавления для организации согласованного перехода от геометрии к внешнему виду в рамках диффузионного процесса. MoCam сначала использует геометрические априорные данные на ранних этапах для фиксации грубых структур, допуская их неполноту, а затем переключается на априорные данные о внешнем виде на поздних этапах для активного исправления геометрических ошибок и уточнения деталей. Такая конструкция естественным образом объединяет статический и динамический синтез видов, временно разделяя геометрическое выравнивание и уточнение внешнего вида в рамках диффузионного процесса. Эксперименты показывают, что MoCam значительно превосходит предыдущие методы, особенно в случаях, когда облака точек содержат серьезные отверстия или искажения, достигая надежного разделения геометрии и внешнего вида.
English
Generative novel view synthesis faces a fundamental dilemma: geometric priors provide spatial alignment but become sparse and inaccurate under view changes, while appearance priors offer visual fidelity but lack geometric correspondence. Existing methods either propagate geometric errors throughout generation or suffer from signal conflicts when fusing both statically. We introduce MoCam, which employs structured denoising dynamics to orchestrate a coordinated progression from geometry to appearance within the diffusion process.MoCam first leverages geometric priors in early stages to anchor coarse structures and tolerate their incompleteness, then switches to appearance priors in later stages to actively correct geometric errors and refine details. This design naturally unifies static and dynamic view synthesis by temporally decoupling geometric alignment and appearance refinement within the diffusion process.Experiments demonstrate that MoCam significantly outperforms prior methods, particularly when point clouds contain severe holes or distortions, achieving robust geometry-appearance disentanglement.