NOVA: Controle Esparso, Síntese Densa para Edição de Vídeo sem Pares

Resumo

Os modelos recentes de edição de vídeo têm alcançado resultados impressionantes, mas a maioria ainda depende de grandes conjuntos de dados emparelhados. A coleta desses pares naturalmente alinhados em larga escala permanece um grande desafio e constitui um gargalo crítico, especialmente para dados de edição de vídeo locais. Soluções alternativas existentes transferem a edição de imagem para vídeo por meio de controle de movimento global para edição sem pares, mas tais projetos lutam com a consistência de fundo e temporal. Neste artigo, propomos o NOVA: Controle Esparso & Síntese Densaa, uma nova estrutura para edição de vídeo não emparelhada. Especificamente, o ramo esparso fornece orientação semântica por meio de quadros-chave editados pelo usuário distribuídos ao longo do vídeo, e o ramo denso incorpora continuamente informações de movimento e textura do vídeo original para manter alta fidelidade e coerência. Além disso, introduzimos uma estratégia de treinamento por simulação de degradação que permite ao modelo aprender a reconstrução de movimento e a consistência temporal treinando em vídeos artificialmente degradados, eliminando assim a necessidade de dados emparelhados. Nossos extensivos experimentos demonstram que o NOVA supera as abordagens existentes em fidelidade de edição, preservação de movimento e coerência temporal.

English

Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.

NOVA: Controle Esparso, Síntese Densa para Edição de Vídeo sem Pares

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Resumo

Support