NOVA: Controllo Sparso, Sintesi Densa per l'Editing Video Senza Coppie

Abstract

I recenti modelli di editing video hanno ottenuto risultati impressionanti, ma la maggior parte richiede ancora dataset accoppiati su larga scala. La raccolta di tali coppie naturalmente allineate su vasta scala rimane estremamente complessa e costituisce un collo di bottiglia critico, specialmente per i dati di editing video locali. Le soluzioni alternative esistenti trasferiscono l'editing dalle immagini ai video attraverso il controllo del moto globale per un editing video senza coppie, ma tali approcci faticano a mantenere la coerenza temporale e dello sfondo. In questo articolo, proponiamo NOVA: Sparse Control & Dense Synthesis, un nuovo framework per l'editing video non accoppiato. Nello specifico, il ramo sparso fornisce una guida semantica attraverso fotogrammi chiave modificati dall'utente distribuiti lungo il video, mentre il ramo denso incorpora continuamente informazioni di movimento e texture dal video originale per mantenere alta fedeltà e coerenza. Inoltre, introduciamo una strategia di addestramento per simulazione del degrado che permette al modello di apprendere la ricostruzione del movimento e la coerenza temporale addestrandosi su video degradati artificialmente, eliminando così la necessità di dati accoppiati. I nostri esperimenti estensivi dimostrano che NOVA supera gli approcci esistenti in termini di fedeltà dell'editing, preservazione del movimento e coerenza temporale.

English

Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.

NOVA: Controllo Sparso, Sintesi Densa per l'Editing Video Senza Coppie

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Abstract

Support