Dynamische Ansichtsynthese als inverses Problem
Dynamic View Synthesis as an Inverse Problem
June 9, 2025
Autoren: Hidir Yesiltepe, Pinar Yanardag
cs.AI
Zusammenfassung
In dieser Arbeit behandeln wir die dynamische Ansichtssynthese aus monokularen Videos als ein inverses Problem in einem trainingsfreien Setting. Durch die Neugestaltung der Rauschinitialisierungsphase eines vortrainierten Video-Diffusionsmodells ermöglichen wir eine hochauflösende dynamische Ansichtssynthese ohne Gewichtsaktualisierungen oder zusätzliche Module. Wir beginnen damit, ein grundlegendes Hindernis für die deterministische Inversion zu identifizieren, das sich aus Null-Terminal-Signal-Rausch-Verhältnis (SNR)-Zeitplänen ergibt, und lösen es durch die Einführung einer neuartigen Rauschdarstellung, die als K-Ordnung Rekursive Rauschdarstellung bezeichnet wird. Wir leiten einen geschlossenen Ausdruck für diese Darstellung ab, der eine präzise und effiziente Ausrichtung zwischen den VAE-kodierten und den DDIM-invertierten Latents ermöglicht. Um neu sichtbare Bereiche, die sich aus der Kamerabewegung ergeben, zu synthetisieren, führen wir die Stochastische Latente Modulation ein, die eine sichtbarkeitsbewusste Abtastung über den Latentraum durchführt, um verdeckte Bereiche zu vervollständigen. Umfassende Experimente zeigen, dass die dynamische Ansichtssynthese effektiv durch strukturierte Latent-Manipulation in der Rauschinitialisierungsphase durchgeführt werden kann.
English
In this work, we address dynamic view synthesis from monocular videos as an
inverse problem in a training-free setting. By redesigning the noise
initialization phase of a pre-trained video diffusion model, we enable
high-fidelity dynamic view synthesis without any weight updates or auxiliary
modules. We begin by identifying a fundamental obstacle to deterministic
inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and
resolve it by introducing a novel noise representation, termed K-order
Recursive Noise Representation. We derive a closed form expression for this
representation, enabling precise and efficient alignment between the
VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions
resulting from camera motion, we introduce Stochastic Latent Modulation, which
performs visibility aware sampling over the latent space to complete occluded
regions. Comprehensive experiments demonstrate that dynamic view synthesis can
be effectively performed through structured latent manipulation in the noise
initialization phase.