ChatPaper.aiChatPaper

EasyV2V : Un cadre d'édition vidéo de haute qualité basé sur des instructions

EasyV2V: A High-quality Instruction-based Video Editing Framework

December 18, 2025
papers.authors: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI

papers.abstract

Alors que l'édition d'images a progressé rapidement, l'édition vidéo reste moins explorée, confrontée à des défis en matière de cohérence, de contrôle et de généralisation. Nous étudions l'espace de conception des données, de l'architecture et du contrôle, et présentons EasyV2V, un cadre simple et efficace pour l'édition vidéo basée sur des instructions. Côté données, nous combinons des modèles experts existants avec des inverses rapides pour constituer des paires vidéo diversifiées, transformons des paires d'édition d'images en vidéos via un apprentissage image par image et des paires pseudo-aléatoires avec un mouvement affine partagé, exploitons des clips à descriptions denses pour créer des paires vidéo, et ajoutons un apprentissage des transitions pour enseigner comment les modifications se déroulent. Côté modèle, nous observons que les modèles pré-entraînés de texte-à-vidéo possèdent une capacité d'édition, justifiant une conception simplifiée. Une simple concaténation de séquences pour le conditionnement avec un finetuning léger par LoRA suffit à entraîner un modèle performant. Pour le contrôle, nous unifions le contrôle spatiotemporel via un mécanisme à masque unique et prenons en charge les images de référence optionnelles. Globalement, EasyV2V fonctionne avec des entrées flexibles, par exemple vidéo+texte, vidéo+masque+texte, vidéo+masque+référence+texte, et obtient des résultats d'édition vidéo à la pointe, surpassant les systèmes concurrents et commerciaux. Page du projet : https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/
PDF102December 20, 2025