ChatPaper.aiChatPaper

Síntesis Dinámica de Vistas como un Problema Inverso

Dynamic View Synthesis as an Inverse Problem

June 9, 2025
Autores: Hidir Yesiltepe, Pinar Yanardag
cs.AI

Resumen

En este trabajo, abordamos la síntesis dinámica de vistas a partir de videos monoculares como un problema inverso en un entorno sin entrenamiento. Al rediseñar la fase de inicialización del ruido de un modelo de difusión de video preentrenado, habilitamos la síntesis dinámica de vistas de alta fidelidad sin actualizaciones de pesos ni módulos auxiliares. Comenzamos identificando un obstáculo fundamental para la inversión determinista que surge de los esquemas de relación señal-ruido (SNR) con terminal cero, y lo resolvemos introduciendo una nueva representación del ruido, denominada Representación de Ruido Recursivo de Orden K. Derivamos una expresión en forma cerrada para esta representación, permitiendo una alineación precisa y eficiente entre los latentes codificados por VAE y los invertidos mediante DDIM. Para sintetizar regiones recién visibles resultantes del movimiento de la cámara, introducimos la Modulación Estocástica de Latentes, que realiza un muestreo consciente de la visibilidad en el espacio latente para completar las regiones ocluidas. Experimentos exhaustivos demuestran que la síntesis dinámica de vistas puede realizarse efectivamente mediante la manipulación estructurada de latentes en la fase de inicialización del ruido.
English
In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.
PDF52June 10, 2025