Kiwi-Edit: Vielseitige Videobearbeitung durch Anweisungs- und Referenzanleitung

Zusammenfassung

Instruktionsbasierte Videobearbeitung hat rasante Fortschritte erzielt, doch aktuelle Methoden kämpfen oft mit präziser visueller Steuerung, da natürliche Sprache von Natur aus eingeschränkt ist, um komplexe visuelle Nuancen zu beschreiben. Obwohl referenzgesteuerte Bearbeitung eine robuste Lösung bietet, wird ihr Potenzial derzeit durch die Knappheit an hochwertigen gepaarten Trainingsdaten begrenzt. Um diese Lücke zu schließen, führen wir eine skalierbare Daten-Generierungspipeline ein, die bestehende Videobearbeitungspaare unter Nutzung von Bildgenerierungsmodellen zu hochwertigen Trainingsquadrupeln veredelt und synthetische Referenzgerüste erstellt. Mit dieser Pipeline konstruieren wir RefVIE, einen großen Datensatz, der für Instruktions-Referenz-Following-Aufgaben maßgeschneidert ist, und etablieren RefVIE-Bench für eine umfassende Evaluation. Des Weiteren schlagen wir eine vereinheitlichte Bearbeitungsarchitektur, Kiwi-Edit, vor, die lernbare Abfragen und latente visuelle Merkmale zur Referenzsemantikführung synergetisch kombiniert. Unser Modell erzielt signifikante Verbesserungen in der Befolgung von Anweisungen und der Referenztreue durch einen progressiven mehrstufigen Trainingsplan. Umfangreiche Experimente belegen, dass unsere Daten und Architektur einen neuen State-of-the-Art in der kontrollierbaren Videobearbeitung etablieren. Alle Datensätze, Modelle und Codes sind unter https://github.com/showlab/Kiwi-Edit verfügbar.

English

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.

Kiwi-Edit: Vielseitige Videobearbeitung durch Anweisungs- und Referenzanleitung

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Zusammenfassung

Support