Sparkle: Realisierung lebendiger, instruktionsgesteuerter Videohintergrundersetzung durch entkoppelte Steuerung

Zusammenfassung

In den letzten Jahren haben Open-Source-Initiativen wie Senorita-2M die Videobearbeitung in Richtung natürlicher Sprachsteuerung vorangetrieben. Allerdings konzentrieren sich aktuell öffentlich verfügbare Datensätze überwiegend auf lokale Bearbeitung oder Stiltransfer, die größtenteils die ursprüngliche Szenenstruktur beibehalten und einfacher zu skalieren sind. Im Gegensatz dazu erfordert der Hintergundaustausch – eine zentrale Aufgabe für kreative Anwendungen wie Filmproduktion und Werbung – die Synthese völlig neuer, zeitlich konsistenter Szenen bei gleichzeitiger Beibehaltung genauer Vordergrund-Hintergrund-Interaktionen, was die großskalige Datengenerierung erheblich schwieriger macht. Folglich bleibt diese komplexe Aufgabe aufgrund eines Mangels an hochwertigen Trainingsdaten weitgehend unerforscht. Diese Lücke zeigt sich in leistungsschwachen State-of-the-Art-Modellen, z.B. Kiwi-Edit, da der primäre Open-Source-Datensatz, der diese Aufgabe enthält (OpenVE-3M), häufig statische, unnatürliche Hintergründe erzeugt. In diesem Artikel führen wir diese Qualitätsverschlechterung auf fehlende präzise Hintergrundführung während der Datensynthese zurück. Dementsprechend entwickeln wir eine skalierbare Pipeline, die Vordergrund- und Hintergrundführung auf entkoppelte Weise mit strenger Qualitätsfilterung generiert. Aufbauend auf dieser Pipeline stellen wir Sparkle vor, einen Datensatz mit ~140.000 Videopaaren aus fünf häufigen Hintergrundwechsel-Themen, sowie Sparkle-Bench, den bisher größten Evaluierungsmaßstab für Hintergundaustausch. Experimente zeigen, dass unser Datensatz und das darauf trainierte Modell auf sowohl OpenVE-Bench als auch Sparkle-Bench deutlich bessere Leistung erzielen als alle existierenden Baseline-Modelle. Unser vorgeschlagener Datensatz, Benchmark und Modell sind vollständig quelloffen unter https://showlab.github.io/Sparkle/ verfügbar.

English

In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.

Sparkle: Realisierung lebendiger, instruktionsgesteuerter Videohintergrundersetzung durch entkoppelte Steuerung

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Zusammenfassung

Support