ChatPaper.aiChatPaper

EasyV2V: Un framework di editing video basato su istruzioni di alta qualità

EasyV2V: A High-quality Instruction-based Video Editing Framework

December 18, 2025
Autori: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI

Abstract

Mentre l'editing delle immagini ha fatto rapidi progressi, l'editing video rimane meno esplorato, affrontando sfide in termini di coerenza, controllo e generalizzazione. Studiamo lo spazio di progettazione di dati, architettura e controllo, e introduciamo EasyV2V, un framework semplice ed efficace per l'editing video basato su istruzioni. Sul fronte dati, componiamo esistenti esperti con inverse veloci per costruire coppie video diversificate, eleviamo coppie di editing di immagini in video tramite supervisione a fotogramma singolo e coppie pseudo con movimento affine condiviso, estraiamo clip con descrizioni dense per coppie video e aggiungiamo supervisione delle transizioni per insegnare come si sviluppano le modifiche. Sul lato modello, osserviamo che i modelli preaddestrati testo-video possiedono capacità di editing, motivando una progettazione semplificata. La semplice concatenazione di sequenze per il condizionamento con un fine-tuning LoRA leggero è sufficiente per addestrare un modello solido. Per il controllo, unifichiamo il controllo spaziotemporale tramite un unico meccanismo a maschera e supportiamo immagini di riferimento opzionali. In generale, EasyV2V funziona con input flessibili, ad esempio video+testo, video+maschera+testo, video+maschera+riferimento+testo, e raggiunge risultati di editing video all'avanguardia, superando sistemi concorrenti e commerciali. Pagina del progetto: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/
PDF122December 21, 2025