EasyV2V: Um Framework de Edição de Vídeo Baseado em Instruções de Alta Qualidade
EasyV2V: A High-quality Instruction-based Video Editing Framework
December 18, 2025
Autores: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI
Resumo
Embora a edição de imagens tenha avançado rapidamente, a edição de vídeo permanece menos explorada, enfrentando desafios em consistência, controle e generalização. Estudamos o espaço de design de dados, arquitetura e controle, e introduzimos o EasyV2V, uma estrutura simples e eficaz para edição de vídeo baseada em instruções. No lado dos dados, compomos especialistas existentes com inversões rápidas para construir pares de vídeo diversificados, elevamos pares de edição de imagem para vídeos via supervisão de quadro único e pares pseudo com movimento afim compartilhado, extraímos clipes com legendas densas para pares de vídeo e adicionamos supervisão de transição para ensinar como as edições se desenrolam. No lado do modelo, observamos que modelos pré-treinados de texto para vídeo possuem capacidade de edição, motivando um design simplificado. A simples concatenação de sequências para condicionamento com ajuste fino leve de LoRA é suficiente para treinar um modelo robusto. Para controle, unificamos o controle espaço-temporal via um mecanismo de máscara única e suportamos imagens de referência opcionais. No geral, o EasyV2V funciona com entradas flexíveis, por exemplo, vídeo+texto, vídeo+máscara+texto, vídeo+máscara+referência+texto, e alcança resultados state-of-the-art em edição de vídeo, superando sistemas concorrentes e comerciais. Página do projeto: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/