ChatPaper.aiChatPaper

Синтез динамических сцен как обратная задача

Dynamic View Synthesis as an Inverse Problem

June 9, 2025
Авторы: Hidir Yesiltepe, Pinar Yanardag
cs.AI

Аннотация

В данной работе мы рассматриваем задачу синтеза динамических видов из монохромных видеозаписей как обратную задачу в условиях, не требующих обучения. Перепроектировав этап инициализации шума в предварительно обученной модели диффузии видео, мы достигаем синтеза высококачественных динамических видов без обновления весов или использования дополнительных модулей. Мы начинаем с выявления фундаментального препятствия для детерминированной инверсии, связанного с графиками отношения сигнал-шум (SNR) с нулевым конечным значением, и устраняем его, вводя новое представление шума, названное K-порядковым рекурсивным представлением шума. Мы выводим аналитическое выражение для этого представления, что позволяет точно и эффективно согласовывать латентные переменные, закодированные VAE, и инвертированные с помощью DDIM. Для синтеза новых видимых областей, возникающих в результате движения камеры, мы предлагаем стохастическую модуляцию латентного пространства, которая выполняет выборку с учетом видимости для заполнения скрытых областей. Комплексные эксперименты демонстрируют, что синтез динамических видов может быть эффективно выполнен за счет структурированного манипулирования латентным пространством на этапе инициализации шума.
English
In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.
PDF52June 10, 2025