ChatPaper.aiChatPaper

EasyV2V: Ein hochwertiges, befehlsgestütztes Videobearbeitungsframework

EasyV2V: A High-quality Instruction-based Video Editing Framework

December 18, 2025
papers.authors: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI

papers.abstract

Während die Bildbearbeitung rasante Fortschritte gemacht hat, bleibt die Videobearbeitung weniger erforscht und steht vor Herausforderungen in Bezug auf Konsistenz, Steuerbarkeit und Generalisierung. Wir untersuchen den Gestaltungsspielraum von Daten, Architektur und Steuerung und stellen EasyV2V vor, ein einfaches und effektives Framework für instruktionsbasierte Videobearbeitung. Auf der Datenseite kombinieren wir bestehende Expertensysteme mit schnellen Inversen, um vielfältige Videopaare zu erstellen, heben Bildbearbeitungspaare durch Einzelbild-Überwachung und Pseudopaare mit gemeinsamer affiner Bewegung in Videos an, extrahieren dicht beschriftete Clips für Videopaare und fügen Übergangsüberwachung hinzu, um zu vermitteln, wie Bearbeitungen ablaufen. Auf der Modellseite beobachten wir, dass vortrainierte Text-zu-Video-Modelle über Bearbeitungsfähigkeiten verfügen, was ein vereinfachtes Design motiviert. Eine einfache Sequenzverkettung für die Konditionierung mit leichtem LoRA-Fine-Tuning reicht aus, um ein leistungsstarkes Modell zu trainieren. Für die Steuerung vereinheitlichen wir raumzeitliche Kontrolle über einen einzigen Maskenmechanismus und unterstützen optionale Referenzbilder. Insgesamt arbeitet EasyV2V mit flexiblen Eingaben, z.B. Video+Text, Video+Maske+Text, Video+Maske+Referenz+Text, und erzielt state-of-the-art Videobearbeitungsergebnisse, die gleichzeitige und kommerzielle Systeme übertreffen. Projektseite: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/
PDF102December 20, 2025