Kiwi-Edit : Édition vidéo polyvalente via des instructions et un guidage par référence

Résumé

L'édition vidéo basée sur des instructions a connu des progrès rapides, mais les méthodes actuelles peinent souvent à assurer un contrôle visuel précis, car le langage naturel est intrinsèquement limité pour décrire des nuances visuelles complexes. Bien que l'édition guidée par référence offre une solution robuste, son potentiel est actuellement freiné par la rareté de données d'entraînement appariées de haute qualité. Pour combler cette lacune, nous introduisons un pipeline de génération de données scalable qui transforme des paires d'édition vidéo existantes en quadruplets d'entraînement haute fidélité, en exploitant des modèles génératifs d'images pour créer des échafaudages de référence synthétisés. En utilisant ce pipeline, nous construisons RefVIE, un jeu de données à grande échelle conçu pour les tâches de suivi d'instructions et de références, et nous établissons RefVIE-Bench pour une évaluation complète. De plus, nous proposons une architecture d'édition unifiée, Kiwi-Edit, qui combine des requêtes apprenables et des caractéristiques visuelles latentes pour un guidage sémantique par référence. Notre modèle atteint des gains significatifs en matière de suivi des instructions et de fidélité à la référence via un curriculum d'entraînement multi-étapes progressif. Des expériences approfondies démontrent que nos données et notre architecture établissent un nouvel état de l'art dans l'édition vidéo contrôlable. Tous les jeux de données, modèles et codes sont publiés à l'adresse https://github.com/showlab/Kiwi-Edit.

English

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.

Kiwi-Edit : Édition vidéo polyvalente via des instructions et un guidage par référence

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Résumé

Support