ChatPaper.aiChatPaper

Synthèse dynamique de vues comme problème inverse

Dynamic View Synthesis as an Inverse Problem

June 9, 2025
Auteurs: Hidir Yesiltepe, Pinar Yanardag
cs.AI

Résumé

Dans ce travail, nous abordons la synthèse dynamique de vues à partir de vidéos monoculaires en tant que problème inverse dans un cadre sans apprentissage. En repensant la phase d'initialisation du bruit d'un modèle de diffusion vidéo pré-entraîné, nous permettons une synthèse dynamique de vues de haute fidélité sans aucune mise à jour des poids ni modules auxiliaires. Nous commençons par identifier un obstacle fondamental à l'inversion déterministe découlant des plannings de rapport signal-sur-bruit (SNR) à terminal zéro et le résolvons en introduisant une nouvelle représentation du bruit, appelée Représentation Récursive du Bruit d'Ordre K. Nous dérivons une expression en forme fermée pour cette représentation, permettant un alignement précis et efficace entre les latents encodés par VAE et ceux inversés par DDIM. Pour synthétiser les régions nouvellement visibles résultant du mouvement de la caméra, nous introduisons la Modulation Latente Stochastique, qui effectue un échantillonnage conscient de la visibilité dans l'espace latent pour compléter les régions occluses. Des expériences approfondies démontrent que la synthèse dynamique de vues peut être effectuée efficacement grâce à une manipulation structurée des latents lors de la phase d'initialisation du bruit.
English
In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.
PDF52June 10, 2025