EasyV2V: Een hoogwaardig instructiegebaseerd kader voor videobewerking
EasyV2V: A High-quality Instruction-based Video Editing Framework
December 18, 2025
Auteurs: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI
Samenvatting
Hoewel beeldbewerking een snelle vooruitgang heeft geboekt, blijft videobewerking minder verkend en kampt het met uitdagingen op het gebied van consistentie, controle en generalisatie. Wij bestuderen de ontwerpruimte van data, architectuur en controle, en introduceren EasyV2V, een eenvoudig en effectief framework voor instructiegebaseerde videobewerking. Aan de datazijde combineren we bestaande experts met snelle inversies om diverse videoparen te bouwen, tillen we beeldbewerkingsparen op naar video's via enkelbeeldsupervisie en pseudoparen met gedeelde affine beweging, delven we dicht-beschreven clips voor videoparen en voegen we overgangssupervisie toe om te leren hoe bewerkingen zich ontvouwen. Aan de modelzijde observeren we dat voorgetrainde tekst-naar-video-modellen beschikken over bewerkingscapaciteit, wat een vereenvoudigd ontwerp motiveert. Eenvoudige sequentieconcatenatie voor conditionering met lichte LoRA-finetuning volstaat om een sterk model te trainen. Voor controle verenigen we spatiotemporele controle via een enkel maskermechanisme en ondersteunen we optionele referentiebeelden. Over het algemeen werkt EasyV2V met flexibele invoer, bijvoorbeeld video+tekst, video+masker+tekst, video+masker+referentie+tekst, en behaalt het state-of-the-art videobewerkingsresultaten, waarbij het gelijktijdige en commerciële systemen overtreft. Projectpagina: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/