EasyV2V: Un Marco de Edición de Video Basado en Instrucciones de Alta Calidad
EasyV2V: A High-quality Instruction-based Video Editing Framework
December 18, 2025
Autores: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI
Resumen
Si bien la edición de imágenes ha avanzado rápidamente, la edición de vídeo sigue estando menos explorada, enfrentando desafíos en consistencia, control y generalización. Estudiamos el espacio de diseño de datos, arquitectura y control, e introducimos EasyV2V, un marco simple y efectivo para la edición de vídeo basada en instrucciones. En el aspecto de datos, componemos expertos existentes con inversas rápidas para construir pares de vídeo diversos, elevamos pares de edición de imagen a vídeos mediante supervisión de fotograma único y pares pseudo con movimiento afín compartido, extraemos clips con descripciones densas para pares de vídeo y añadimos supervisión de transición para enseñar cómo se desarrollan las ediciones. En el aspecto del modelo, observamos que los modelos preentrenados de texto a vídeo poseen capacidad de edición, lo que motiva un diseño simplificado. La simple concatenación de secuencias para el acondicionamiento con un fino ajuste ligero de LoRA es suficiente para entrenar un modelo sólido. Para el control, unificamos el control espacio-temporal mediante un mecanismo de máscara única y admitimos imágenes de referencia opcionales. En general, EasyV2V funciona con entradas flexibles, por ejemplo, vídeo+texto, vídeo+máscara+texto, vídeo+máscara+referencia+texto, y logra resultados de edición de vídeo de vanguardia, superando a sistemas concurrentes y comerciales. Página del proyecto: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/