NOVA: Control Escaso, Síntesis Densa para la Edición de Video sin Pares

Resumen

Los modelos recientes de edición de vídeo han logrado resultados impresionantes, pero la mayoría aún requiere conjuntos de datos pareados a gran escala. La recopilación de tales pares naturalmente alineados a escala sigue siendo un desafío importante y constituye un cuello de botella crítico, especialmente para datos locales de edición de vídeo. Las soluciones existentes transfieren la edición de imágenes a vídeo mediante control de movimiento global para una edición sin pares, pero estos diseños tienen dificultades con la coherencia temporal y del fondo. En este artículo, proponemos NOVA: Control Escaso y Síntesis Densa, un nuevo marco para la edición de vídeo no pareado. Específicamente, la rama escasa proporciona guía semántica a través de fotogramas clave editados por el usuario distribuidos a lo largo del vídeo, y la rama densa incorpora continuamente información de movimiento y textura del vídeo original para mantener alta fidelidad y coherencia. Además, introducimos una estrategia de entrenamiento por simulación de degradación que permite al modelo aprender la reconstrucción de movimiento y la coherencia temporal entrenando con vídeos artificialmente degradados, eliminando así la necesidad de datos pareados. Nuestros extensos experimentos demuestran que NOVA supera a los enfoques existentes en fidelidad de edición, preservación del movimiento y coherencia temporal.

English

Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.

NOVA: Control Escaso, Síntesis Densa para la Edición de Video sin Pares

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Resumen

Support