Síntese Dinâmica de Visão como um Problema Inverso

Resumo

Neste trabalho, abordamos a síntese dinâmica de visão a partir de vídeos monoculares como um problema inverso em um cenário livre de treinamento. Ao redesenhar a fase de inicialização de ruído de um modelo de difusão de vídeo pré-treinado, possibilitamos a síntese dinâmica de visão de alta fidelidade sem qualquer atualização de pesos ou módulos auxiliares. Começamos identificando um obstáculo fundamental à inversão determinística decorrente de cronogramas de relação sinal-ruído (SNR) com terminal zero e o resolvemos introduzindo uma nova representação de ruído, denominada Representação de Ruído Recursiva de Ordem K. Derivamos uma expressão em forma fechada para essa representação, permitindo um alinhamento preciso e eficiente entre os latentes codificados pelo VAE e os latentes invertidos pelo DDIM. Para sintetizar regiões recém-visíveis resultantes do movimento da câmera, introduzimos a Modulação Latente Estocástica, que realiza uma amostragem consciente da visibilidade sobre o espaço latente para completar regiões ocluídas. Experimentos abrangentes demonstram que a síntese dinâmica de visão pode ser efetivamente realizada por meio da manipulação estruturada de latentes na fase de inicialização de ruído.

English

In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.

Síntese Dinâmica de Visão como um Problema Inverso

Dynamic View Synthesis as an Inverse Problem

Resumo

Support