Kiwi-Edit: 지시 및 참조 가이던스를 통한 다용도 비디오 편집
Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance
March 2, 2026
저자: Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou
cs.AI
초록
지시 기반 비디오 편집은 빠른 발전을 이루었으나, 자연어가 복잡한 시각적 뉘앙스를 설명하는 데 본질적 한계가 있어 현재 방법론들은 정확한 시각적 제어에 어려움을 겪고 있습니다. 참조 기반 편집이 강력한 해결책을 제공하지만, 고품질 짝지어진 학습 데이터의 부족으로 그 잠재력이 현재는 발목 잡히고 있습니다. 이러한 격차를 해소하기 위해 우리는 이미지 생성 모델을 활용하여 합성된 참조 구조물을 생성함으로써 기존 비디오 편집 데이터 쌍을 고품질 학습 4중주체로 변환하는 확장 가능한 데이터 생성 파이프라인을 소개합니다. 이 파이프라인을 활용하여 지시-참조 추종 작업에 특화된 대규모 데이터셋인 RefVIE를 구축하고, 포괄적 평가를 위한 RefVIE-Bench를 마련했습니다. 더 나아가, 학습 가능한 쿼리와 잠재 시각 특징을 결합하여 참조 의미론적 지도를 제공하는 통합 편집 아키텍처인 Kiwi-Edit을 제안합니다. 우리 모델은 점진적 다단계 학습 과정을 통해 지시 추종성과 참조 정확도에서 상당한 성능 향상을 달성했습니다. 폭넓은 실험을 통해 우리의 데이터와 아키텍처가 제어 가능한 비디오 편집 분야에서 새로운 최첨단 기술을 정립함을 입증했습니다. 모든 데이터셋, 모델 및 코드는 https://github.com/showlab/Kiwi-Edit에서 공개됩니다.
English
Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.