ChatPaper.aiChatPaper

Dynamische Viewsynthese als een Invers Probleem

Dynamic View Synthesis as an Inverse Problem

June 9, 2025
Auteurs: Hidir Yesiltepe, Pinar Yanardag
cs.AI

Samenvatting

In dit werk behandelen we dynamische viewsynthese vanuit monovideo's als een invers probleem in een trainingsvrije setting. Door de ruisinitialisatiefase van een vooraf getraind videodiffusiemodel te herontwerpen, maken we hoogwaardige dynamische viewsynthese mogelijk zonder gewichtsaanpassingen of aanvullende modules. We beginnen met het identificeren van een fundamenteel obstakel voor deterministische inversie dat voortkomt uit nul-terminale signaal-ruisverhouding (SNR) schema's en lossen dit op door een nieuwe ruisrepresentatie te introduceren, genaamd K-order Recursive Noise Representation. We leiden een gesloten vormexpressie af voor deze representatie, waardoor een precieze en efficiënte afstemming tussen de VAE-gecodeerde en de DDIM-geïnverteerde latenties mogelijk wordt. Om nieuw zichtbare gebieden die ontstaan door camerabeweging te synthetiseren, introduceren we Stochastic Latent Modulation, dat zichtbaarheidsbewuste bemonstering uitvoert over de latente ruimte om verborgen gebieden aan te vullen. Uitgebreide experimenten tonen aan dat dynamische viewsynthese effectief kan worden uitgevoerd door gestructureerde manipulatie van latenties in de ruisinitialisatiefase.
English
In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.
PDF52June 10, 2025