Sparkle: Realisatie van Levendige Instructiegestuurde Videobewerking via Ontkoppelde Leiding

Samenvatting

De afgelopen jaren hebben opensource-initiatieven zoals Senorita-2M videobewerking naar natuurlijke taal-instructie gestuwd. Huidige publiek beschikbare datasets richten zich echter voornamelijk op lokale bewerkingen of stijloverdracht, waarbij de oorspronkelijke scènestructuur grotendeels behouden blijft en die eenvoudiger op te schalen zijn. Daarentegen vereist Achtergrondvervanging, een taak die centraal staat in creatieve toepassingen zoals filmproductie en reclame, het synthetiseren van volledig nieuwe, temporeel consistente scènes waarbij nauwkeurige interacties tussen voorgrond en achtergrond behouden blijven, wat grootschalige datageneratie aanzienlijk uitdagender maakt. Dientengevolge blijft deze complexe taak grotendeels onderbelicht door een gebrek aan hoogwaardige trainingsdata. Deze kloof blijkt uit slecht presterende state-of-the-art modellen, zoals Kiwi-Edit, omdat de primaire opensource-dataset die deze taak bevat, OpenVE-3M, vaak statische, onnatuurlijke achtergronden produceert. In dit artikel herleiden wij deze kwaliteitsachteruitgang tot een gebrek aan precieze achtergrondgeleiding tijdens datasynthese. Dienovereenkomstig ontwerpen wij een schaalbare pijplijn die voorgrond- en achtergrondgeleiding op een ontkoppelde manier genereert met strikte kwaliteitsfiltering. Op basis van deze pijplijn introduceren wij Sparkle, een dataset van ~140K videoparen verspreid over vijf veelvoorkomende thema's voor achtergrondverandering, samen met Sparkle-Bench, de grootste evaluatiebenchmark tot nu toe die specifiek voor achtergrondvervanging is ontwikkeld. Experimenten tonen aan dat onze dataset en het daarop getrainde model een aanzienlijk betere prestaties leveren dan alle bestaande baseline-methoden op zowel OpenVE-Bench als Sparkle-Bench. Onze voorgestelde dataset, benchmark en model zijn volledig opensource beschikbaar op https://showlab.github.io/Sparkle/.

English

In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.

Sparkle: Realisatie van Levendige Instructiegestuurde Videobewerking via Ontkoppelde Leiding

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Samenvatting

Support