NOVA : Contrôle parcimonieux, synthèse dense pour l'édition vidéo sans appariement

Résumé

Les modèles récents d'édition vidéo ont obtenu des résultats impressionnants, mais la plupart nécessitent encore des jeux de données appariés à grande échelle. La collecte de telles paires naturellement alignées à grande échelle reste très difficile et constitue un goulot d'étranglement critique, particulièrement pour les données d'édition vidéo locale. Les solutions existantes transfèrent l'édition d'image à la vidéo via un contrôle global du mouvement pour une édition vidéo sans paires, mais ces conceptions peinent à assurer la cohérence temporelle et de l'arrière-plan. Dans cet article, nous proposons NOVA : Contrôle Sparse & Synthèse Dense, un nouveau cadre pour l'édition vidéo non appariée. Plus précisément, la branche sparse fournit un guidage sémantique via des images-clés éditées par l'utilisateur et distribuées le long de la vidéo, tandis que la branche dense intègre continuellement les informations de mouvement et de texture de la vidéo originale pour maintenir une haute fidélité et une cohérence élevée. De plus, nous introduisons une stratégie d'entraînement par simulation de dégradation qui permet au modèle d'apprendre la reconstruction du mouvement et la cohérence temporelle en s'entraînant sur des vidéos artificiellement dégradées, éliminant ainsi le besoin de données appariées. Nos expériences approfondies démontrent que NOVA surpasse les approches existantes en termes de fidélité de l'édition, de préservation du mouvement et de cohérence temporelle.

English

Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.

NOVA : Contrôle parcimonieux, synthèse dense pour l'édition vidéo sans appariement

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Résumé

Support