EasyV2V: Высококачественная фреймворк для редактирования видео на основе инструкций
EasyV2V: A High-quality Instruction-based Video Editing Framework
December 18, 2025
Авторы: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI
Аннотация
Хотя редактирование изображений быстро развивалось, редактирование видео остаётся менее изученной областью, сталкиваясь с проблемами согласованности, управления и обобщения. Мы исследуем пространство проектирования данных, архитектуры и управления и представляем EasyV2V — простую и эффективную систему для редактирования видео на основе инструкций. В части данных мы комбинируем существующие экспертные методы с быстрыми инверсиями для создания разнообразных видеопар, преобразуем пары редактирования изображений в видео с помощью одно-кадрового контроля и псевдопар с общим аффинным движением, извлекаем клипы с плотными описаниями для формирования видеопар и добавляем контроль переходов для обучения тому, как разворачиваются правки. В части модели мы наблюдаем, что предобученные модели для генерации видео из текста обладают способностью к редактированию, что мотивирует упрощённый дизайн. Простой метод конкатенации последовательностей для conditioning с лёгкой тонкой настройкой LoRA достаточен для обучения мощной модели. Для управления мы унифицируем пространственно-временной контроль с помощью единого механизма масок и поддерживаем опциональные эталонные изображения. В целом, EasyV2V работает с гибкими входными данными, например, видео+текст, видео+маска+текст, видео+маска+эталон+текст, и достигает передовых результатов в редактировании видео, превосходя конкурирующие и коммерческие системы. Страница проекта: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/