NOVA: Разреженное управление, плотный синтез для редактирования видео без парных данных
NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing
March 3, 2026
Авторы: Tianlin Pan, Jiayi Dai, Chenpu Yuan, Zhengyao Lv, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu, Caifeng Shan, Chenyang Si
cs.AI
Аннотация
Современные модели редактирования видео демонстрируют впечатляющие результаты, однако большинство из них по-прежнему требуют крупномасштабных парных наборов данных. Сбор таких естественно выровненных пар в больших масштабах остается крайне сложной задачей и представляет собой ключевое узкое место, особенно для данных локального редактирования видео. Существующие обходные пути переносят редактирование изображений на видео через глобальный контроль движения для редактирования без пар, но такие подходы страдают от проблем с согласованностью фона и временной целостностью. В данной статье мы предлагаем NOVA: Sparse Control \& Dense Synthesis — новую архитектуру для непарного редактирования видео. В частности, разреженная ветвь обеспечивает семантическое руководство через отредактированные пользователем ключевые кадры, распределенные по всему видео, а плотная ветвь непрерывно интегрирует информацию о движении и текстуре из исходного видео для сохранения высокой точности и связности. Кроме того, мы представляем стратегию обучения с имитацией деградации, которая позволяет модели обучаться реконструкции движения и временной согласованности на искусственно ухудшенных видео, тем самым устраняя необходимость в парных данных. Наши расширенные эксперименты демонстрируют, что NOVA превосходит существующие подходы по точности редактирования, сохранению движения и временной связности.
English
Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.