NOVA: Sparse Controle, Dichte Synthese voor Video-editing zonder Paren
NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing
March 3, 2026
Auteurs: Tianlin Pan, Jiayi Dai, Chenpu Yuan, Zhengyao Lv, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu, Caifeng Shan, Chenyang Si
cs.AI
Samenvatting
Recente videobewerkingsmodellen hebben indrukwekkende resultaten behaald, maar de meeste vereisen nog steeds grootschalige gepaarde datasets. Het verzamelen van dergelijke van nature uitgelijnde paren op schaal blijft zeer uitdagend en vormt een kritieke bottleneck, vooral voor lokale videobewerkingsdata. Bestaande oplossingen brengen beeldbewerking over naar video via globale bewegingscontrole voor paar-vrije videobewerking, maar dergelijke ontwerpen worstelen met achtergrond- en temporele consistentie. In dit artikel stellen we NOVA voor: Sparse Control & Dense Synthesis, een nieuw raamwerk voor ongepaarde videobewerking. Concreet biedt de sparse tak semantische begeleiding door middel van door de gebruiker bewerkte keyframes die over de video zijn verdeeld, en de dense tak incorporeert continu bewegings- en textuurinformatie uit de originele video om hoge trouw en coherentie te behouden. Bovendien introduceren we een trainingsstrategie met degradatiesimulatie, waardoor het model bewegingreconstructie en temporele consistentie kan leren door te trainen op kunstmatig gedegradeerde video's, waardoor de noodzaak van gepaarde data wordt geëlimineerd. Onze uitgebreide experimenten tonen aan dat NOVA bestaande benaderingen overtreft in bewerkingsgetrouwheid, bewegingbehoud en temporele coherentie.
English
Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.