Sparkle: Realización de Reemplazo de Fondos de Video Dinámicos Guiados por Instrucción mediante Orientación Desacoplada
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
May 7, 2026
Autores: Ziyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
cs.AI
Resumen
En los últimos años, iniciativas de código abierto como Senorita-2M han impulsado la edición de vídeo hacia la instrucción mediante lenguaje natural. Sin embargo, los conjuntos de datos disponibles públicamente en la actualidad se centran predominantemente en la edición local o la transferencia de estilo, que en gran medida preservan la estructura escénica original y son más fáciles de escalar. En contraste, la Sustitución de Fondo, una tarea central para aplicaciones creativas como la producción cinematográfica y la publicidad, requiere sintetizar escenas completamente nuevas y temporalmente coherentes, manteniendo interacciones precisas entre el primer plano y el fondo, lo que hace que la generación de datos a gran escala sea significativamente más desafiante. En consecuencia, esta compleja tarea permanece en gran medida inexplorada debido a la escasez de datos de entrenamiento de alta calidad. Esta brecha es evidente en los modelos de vanguardia con bajo rendimiento, por ejemplo, Kiwi-Edit, porque el principal conjunto de datos de código abierto que contiene esta tarea, es decir, OpenVE-3M, frecuentemente produce fondos estáticos y poco naturales. En este artículo, atribuimos esta degradación de la calidad a la falta de una guía precisa del fondo durante la síntesis de datos. En consecuencia, diseñamos un pipeline escalable que genera guías de primer plano y fondo de manera desacoplada con un filtrado de calidad estricto. Sobre la base de este pipeline, presentamos Sparkle, un conjunto de datos de ~140K pares de vídeo que abarcan cinco temas comunes de cambio de fondo, junto con Sparkle-Bench, el benchmark de evaluación más grande hasta la fecha específicamente diseñado para la sustitución de fondo. Los experimentos demuestran que nuestro conjunto de datos y el modelo entrenado en él logran un rendimiento sustancialmente mejor que todas las líneas base existentes tanto en OpenVE-Bench como en Sparkle-Bench. Nuestro conjunto de datos, benchmark y modelo propuestos son completamente de código abierto en https://showlab.github.io/Sparkle/.
English
In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.