Sintesi Dinamica della Vista come Problema Inverso

Abstract

In questo lavoro, affrontiamo la sintesi dinamica di viste da video monoculari come un problema inverso in un contesto privo di addestramento. Riprogettando la fase di inizializzazione del rumore di un modello di diffusione video pre-addestrato, abilitiamo la sintesi dinamica di viste ad alta fedeltà senza aggiornamenti dei pesi o moduli ausiliari. Iniziamo identificando un ostacolo fondamentale all'inversione deterministica derivante da schemi di rapporto segnale-rumore (SNR) a terminale zero e lo risolviamo introducendo una nuova rappresentazione del rumore, denominata Rappresentazione Ricorsiva del Rumore di Ordine K. Deriviamo un'espressione in forma chiusa per questa rappresentazione, consentendo un allineamento preciso ed efficiente tra i latenti codificati dal VAE e quelli invertiti dal DDIM. Per sintetizzare le regioni visibili risultanti dal movimento della telecamera, introduciamo la Modulazione Stocastica dei Latenti, che esegue un campionamento consapevole della visibilità nello spazio latente per completare le regioni occluse. Esperimenti completi dimostrano che la sintesi dinamica di viste può essere efficacemente eseguita attraverso una manipolazione strutturata dei latenti nella fase di inizializzazione del rumore.

English

In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.

Sintesi Dinamica della Vista come Problema Inverso

Dynamic View Synthesis as an Inverse Problem

Abstract

Support