Étincelle : Réalisation d'un remplacement dynamique d'arrière-plan vidéo guidé par instructions via un guidage découplé

Résumé

Ces dernières années, des initiatives open source comme Senorita-2M ont fait progresser l'édition vidéo vers des instructions en langage naturel. Cependant, les ensembles de données actuellement disponibles publiquement se concentrent principalement sur l'édition locale ou le transfert de style, qui préservent largement la structure scénique originale et sont plus faciles à mettre à l'échelle. En revanche, le Remplacement d'Arrière-plan, une tâche centrale pour des applications créatives comme la production cinématographique et la publicité, nécessite de synthétiser des scènes entièrement nouvelles et temporellement cohérentes tout en maintenant des interactions précises entre le premier plan et l'arrière-plan, ce qui rend la génération de données à grande échelle nettement plus difficile. Par conséquent, cette tâche complexe reste largement inexplorée en raison d'une pénurie de données d'entraînement de haute qualité. Cette lacune est évidente dans les performances médiocres des modèles de pointe, par exemple Kiwi-Edit, car le principal ensemble de données open source contenant cette tâche, à savoir OpenVE-3M, produit fréquemment des arrière-plans statiques et non naturels. Dans cet article, nous attribuons cette dégradation de la qualité à un manque de guidage précis de l'arrière-plan pendant la synthèse des données. En conséquence, nous concevons un pipeline évolutif qui génère des guidages pour le premier plan et l'arrière-plan de manière découplée avec un filtrage qualité strict. Sur la base de ce pipeline, nous présentons Sparkle, un ensemble d'environ 140 000 paires vidéo couvrant cinq thèmes courants de changement d'arrière-plan, ainsi que Sparkle-Bench, le plus grand benchmark d'évaluation conçu à ce jour pour le remplacement d'arrière-plan. Les expériences démontrent que notre ensemble de données et le modèle entraîné sur celui-ci obtiennent des performances substantiellement meilleures que toutes les bases de référence existantes, à la fois sur OpenVE-Bench et Sparkle-Bench. Notre ensemble de données, notre benchmark et notre modèle proposés sont entièrement open source à l'adresse https://showlab.github.io/Sparkle/.

English

In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.

Étincelle : Réalisation d'un remplacement dynamique d'arrière-plan vidéo guidé par instructions via un guidage découplé

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Résumé

Support