Dynamische Viewsynthese als een Invers Probleem
Dynamic View Synthesis as an Inverse Problem
June 9, 2025
Auteurs: Hidir Yesiltepe, Pinar Yanardag
cs.AI
Samenvatting
In dit werk behandelen we dynamische viewsynthese vanuit monovideo's als een invers probleem in een trainingsvrije setting. Door de ruisinitialisatiefase van een vooraf getraind videodiffusiemodel te herontwerpen, maken we hoogwaardige dynamische viewsynthese mogelijk zonder gewichtsaanpassingen of aanvullende modules. We beginnen met het identificeren van een fundamenteel obstakel voor deterministische inversie dat voortkomt uit nul-terminale signaal-ruisverhouding (SNR) schema's en lossen dit op door een nieuwe ruisrepresentatie te introduceren, genaamd K-order Recursive Noise Representation. We leiden een gesloten vormexpressie af voor deze representatie, waardoor een precieze en efficiënte afstemming tussen de VAE-gecodeerde en de DDIM-geïnverteerde latenties mogelijk wordt. Om nieuw zichtbare gebieden die ontstaan door camerabeweging te synthetiseren, introduceren we Stochastic Latent Modulation, dat zichtbaarheidsbewuste bemonstering uitvoert over de latente ruimte om verborgen gebieden aan te vullen. Uitgebreide experimenten tonen aan dat dynamische viewsynthese effectief kan worden uitgevoerd door gestructureerde manipulatie van latenties in de ruisinitialisatiefase.
English
In this work, we address dynamic view synthesis from monocular videos as an
inverse problem in a training-free setting. By redesigning the noise
initialization phase of a pre-trained video diffusion model, we enable
high-fidelity dynamic view synthesis without any weight updates or auxiliary
modules. We begin by identifying a fundamental obstacle to deterministic
inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and
resolve it by introducing a novel noise representation, termed K-order
Recursive Noise Representation. We derive a closed form expression for this
representation, enabling precise and efficient alignment between the
VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions
resulting from camera motion, we introduce Stochastic Latent Modulation, which
performs visibility aware sampling over the latent space to complete occluded
regions. Comprehensive experiments demonstrate that dynamic view synthesis can
be effectively performed through structured latent manipulation in the noise
initialization phase.