Искра: Реализация динамичной замены фона на видео с управлением через инструкции с помощью разделенного руководства
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
May 7, 2026
Авторы: Ziyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
cs.AI
Аннотация
В последние годы усилия в области открытого исходного кода, такие как проект Senorita-2M, способствовали развитию редактирования видео с помощью инструкций на естественном языке. Однако современные общедоступные наборы данных в основном сосредоточены на локальном редактировании или переносе стиля, которые в значительной степени сохраняют исходную структуру сцены и легче масштабируются. В отличие от этого, замена фона — задача, ключевая для творческих приложений, таких как кинопроизводство и реклама, — требует синтеза полностью новых, временно согласованных сцен при сохранении точного взаимодействия переднего плана и фона, что делает крупномасштабную генерацию данных значительно более сложной. Как следствие, эта сложная задача остается в значительной степени неисследованной из-за нехватки высококачественных данных для обучения. Этот пробел очевиден в низкой производительности современных моделей, например, Kiwi-Edit, поскольку основной открытый набор данных, содержащий эту задачу, — OpenVE-3M — часто генерирует статические, неестественные фоны. В данной статье мы связываем это снижение качества с отсутствием точных указаний по фону в процессе синтеза данных. Соответственно, мы разрабатываем масштабируемый конвейер, который генерирует указания для переднего плана и фона раздельным способом со строгой фильтрацией качества. На основе этого конвейера мы представляем Sparkle — набор данных, содержащий ~140 тыс. пар видео, охватывающих пять распространенных тем замены фона, а также Sparkle-Bench — крупнейший на сегодняшний день оценочный эталон, специально созданный для замены фона. Эксперименты показывают, что наш набор данных и модель, обученная на нем, демонстрируют существенно лучшие результаты по сравнению со всеми существующими базовыми методами как на OpenVE-Bench, так и на Sparkle-Bench. Предлагаемые нами набор данных, эталон и модель полностью открыты и доступны по адресу https://showlab.github.io/Sparkle/.
English
In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.