NOVA: Sparsesteuerung, dichte Synthese für paarfreie Videobearbeitung
NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing
March 3, 2026
Autoren: Tianlin Pan, Jiayi Dai, Chenpu Yuan, Zhengyao Lv, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu, Caifeng Shan, Chenyang Si
cs.AI
Zusammenfassung
Aktuelle Videobearbeitungsmodelle haben beeindruckende Ergebnisse erzielt, doch die meisten benötigen nach wie vor umfangreiche gepaarte Datensätze. Die Sammlung solcher natürlich ausgerichteter Paare in großem Maßstab bleibt äußerst schwierig und stellt einen kritischen Engpass dar, insbesondere für lokale Videobearbeitungsdaten. Bestehende Lösungsansätze übertragen Bildbearbeitung auf Video durch globale Bewegungssteuerung für paarfreie Videobearbeitung, doch solche Konzepte kämpfen mit Hintergrund- und zeitlicher Konsistenz. In diesem Artikel stellen wir NOVA vor: Sparse Control & Dense Synthesis, ein neues Framework für ungepaarte Videobearbeitung. Konkret liefert der sparse Zweig semantische Führung durch benutzerbearbeitete Keyframes, die über das Video verteilt sind, während der dense Zweig kontinuierlich Bewegungs- und Texturinformationen aus dem Originalvideo integriert, um hohe Wiedergabetreue und Kohärenz zu erhalten. Darüber hinaus führen wir eine Trainingsstrategie zur Degradationssimulation ein, die es dem Modell ermöglicht, Bewegungsrekonstruktion und zeitliche Konsistenz durch Training an künstlich verschlechterten Videos zu erlernen, wodurch der Bedarf an gepaarten Daten entfällt. Unsere umfangreichen Experimente zeigen, dass NOVA bestehende Ansätze in Bearbeitungstreue, Bewegungserhaltung und zeitlicher Kohärenz übertrifft.
English
Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.