ChatPaper.aiChatPaper

キウイエディット:命令と参照ガイダンスによる多用途ビデオ編集

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

March 2, 2026
著者: Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou
cs.AI

要旨

指示に基づく動画編集は急速な進歩を遂げているが、現行の手法は精密な視覚的制御に課題を抱えている。自然言語は複雑な視覚的ニュアンスを記述する際に本質的な限界があるためである。参照画像誘導型編集は強力な解決策を提供するが、その可能性は現在、高品質なペア訓練データの不足によって頭打ち状態にある。この課題を解決するため、我々は画像生成モデルを活用して合成参照スキャフォールドを作成し、既存の動画編集ペアを高精度な訓練用四つ組データに変換するスケーラブルなデータ生成パイプラインを提案する。このパイプラインを用いて、指示と参照画像に従うタスクに特化した大規模データセットRefVIEを構築し、包括的評価のためのRefVIE-Benchを確立した。さらに、学習可能なクエリと潜在視覚特徴を統合して参照意味誘導を実現する統一編集アーキテクチャKiwi-Editを提案する。プログレッシブ多段階訓練カリキュラムを通じて、本モデルは指示追従性と参照再現性において顕著な性能向上を達成した。大規模な実験により、我々のデータとアーキテクチャが制御可能な動画編集において新たな技術基準を確立することを実証した。全てのデータセット、モデル、コードはhttps://github.com/showlab/Kiwi-Editで公開されている。
English
Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.
PDF244May 8, 2026