MoCam: Vereinheitlichte Neuansichtssynthese durch strukturierte Entrauschungsdynamik

Zusammenfassung

Die generative Synthese neuer Ansichten steht vor einem grundlegenden Dilemma: Geometrische Priors liefern räumliche Ausrichtung, werden jedoch unter Blickwinkeländerungen dünnbesetzt und ungenau, während Erscheinungs-Prioris visuelle Treue bieten, aber keine geometrische Korrespondenz aufweisen. Bestehende Methoden propagieren entweder geometrische Fehler durch die gesamte Generierung oder leiden unter Signalstörungen, wenn beide statisch fusioniert werden. Wir stellen MoCam vor, das strukturierte Entrauschungsdynamiken nutzt, um eine abgestimmte Progression von Geometrie zu Erscheinung innerhalb des Diffusionsprozesses zu orchestrieren. MoCam verwendet zunächst geometrische Priors in frühen Phasen, um grobe Strukturen zu verankern und deren Unvollständigkeit zu tolerieren, und wechselt dann in späteren Phasen zu Erscheinungs-Prioris, um aktiv geometrische Fehler zu korrigieren und Details zu verfeinern. Dieses Design vereint statische und dynamische Ansichtensynthese auf natürliche Weise, indem es geometrische Ausrichtung und Erscheinungsverfeinerung zeitlich innerhalb des Diffusionsprozesses entkoppelt. Experimente zeigen, dass MoCam frühere Methoden deutlich übertrifft, insbesondere wenn Punktwolken schwerwiegende Löcher oder Verzerrungen aufweisen, und so eine robuste Geometrie-Erscheinungs-Entkopplung erreicht.

English

Generative novel view synthesis faces a fundamental dilemma: geometric priors provide spatial alignment but become sparse and inaccurate under view changes, while appearance priors offer visual fidelity but lack geometric correspondence. Existing methods either propagate geometric errors throughout generation or suffer from signal conflicts when fusing both statically. We introduce MoCam, which employs structured denoising dynamics to orchestrate a coordinated progression from geometry to appearance within the diffusion process.MoCam first leverages geometric priors in early stages to anchor coarse structures and tolerate their incompleteness, then switches to appearance priors in later stages to actively correct geometric errors and refine details. This design naturally unifies static and dynamic view synthesis by temporally decoupling geometric alignment and appearance refinement within the diffusion process.Experiments demonstrate that MoCam significantly outperforms prior methods, particularly when point clouds contain severe holes or distortions, achieving robust geometry-appearance disentanglement.

MoCam: Vereinheitlichte Neuansichtssynthese durch strukturierte Entrauschungsdynamik

MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics

Zusammenfassung

Support