스파클: 분리된 지침을 통한 생동감 있는 지시어 기반 비디오 배경 교체 구현
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
May 7, 2026
저자: Ziyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
cs.AI
초록
최근 Senorita-2M과 같은 오픈소스 노력으로 비디오 편집이 자연어 명령어 방식으로 발전해 왔습니다. 그러나 현재 공개된 데이터셋은 주로 원본 장면 구조를 대체로 보존하고 확장이 용이한 지역적 편집이나 스타일 변환에 집중되어 있습니다. 이와 대조적으로 영화 제작 및 광고와 같은 창의적 응용 분야의 핵심 과제인 배경 교체는 정확한 전경-배경 상호작용을 유지하면서 완전히 새롭고 시간적 일관성을 가진 장면을 합성해야 하므로, 대규모 데이터 생성이 훨씬 더 어려운 과제입니다. 그 결과 고품질 훈련 데이터의 부족으로 이 복잡한 작업은 여전히 크게 미개발된 상태로 남아 있습니다. 이러한 격차는 최신 모델인 Kiwi-Edit의 저조한 성능에서 명확히 드러나는데, 이는 해당 작업을 포함하는 주요 오픈소스 데이터셋인 OpenVE-3M이 정적이고 부자연스러운 배경을 빈번히 생성하기 때문입니다. 본 논문에서는 이러한 품질 저하가 데이터 합성 과정에서 정밀한 배경 지도 부재에 기인함을 규명합니다. 이에 따라 우리는 엄격한 품질 필터링과 함께 전경과 배경 지도를 분리된 방식으로 생성하는 확장 가능한 파이프라인을 설계했습니다. 이 파이프라인을 기반으로 약 14만 개의 비디오 쌍으로 구성되고 5가지 일반적인 배경 변경 테마를 아우르는 Sparkle 데이터셋과 배경 교체를 위해 현재까지 제안된 가장 큰 평가 벤치마크인 Sparkle-Bench를 소개합니다. 실험 결과, 우리의 데이터셋과 이를 기반으로 훈련된 모델이 OpenVE-Bench와 Sparkle-Bench 모두에서 기존 모든 기준 모델보다 상당히 우수한 성능을 달성함을 확인했습니다. 우리가 제안하는 데이터셋, 벤치마크 및 모델은 https://showlab.github.io/Sparkle/에서 완전히 오픈소스로 공개됩니다.
English
In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.