Kiwi-Edit: Универсальное видеомонтажное решение на основе инструкций и референсного руководства

Аннотация

Редактирование видео на основе инструкций демонстрирует быстрый прогресс, однако современные методы часто сталкиваются с трудностями в обеспечении точного визуального контроля, поскольку естественный язык по своей природе ограничен в описании сложных визуальных нюансов. Хотя редактирование с использованием референсных изображений предлагает надежное решение, его потенциал в настоящее время ограничен нехваткой высококачественных парных данных для обучения. Чтобы устранить этот разрыв, мы представляем масштабируемый конвейер генерации данных, который преобразует существующие пары для редактирования видео в высококачественные обучающие четверки, используя генеративные модели изображений для создания синтезированных референсных каркасов. С помощью этого конвейера мы создали RefVIE — масштабируемый набор данных, предназначенный для задач следования инструкциям и референсам, и разработали RefVIE-Bench для всесторонней оценки. Кроме того, мы предлагаем унифицированную архитектуру редактирования Kiwi-Edit, которая объединяет обучаемые запросы и латентные визуальные признаки для семантического руководства по референсу. Наша модель достигает значительного прогресса в следовании инструкциям и точности воспроизведения референса благодаря прогрессивной многоэтапной учебной программе. Многочисленные эксперименты демонстрируют, что наши данные и архитектура устанавливают новое состояние искусства в контролируемом редактировании видео. Все наборы данных, модели и код доступны по адресу https://github.com/showlab/Kiwi-Edit.

English

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.

Kiwi-Edit: Универсальное видеомонтажное решение на основе инструкций и референсного руководства

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Аннотация

Support