Vera: Ein geschichtetes Diffusionsmodell für inhaltserhaltende Videobearbeitung

Zusammenfassung

Video-Diffusionsmodelle haben bemerkenswerte Fortschritte bei der Generierung und Bearbeitung von Videos ermöglicht. Dennoch bleibt die Inhaltserhaltung eine zentrale Herausforderung: Bestehende Methoden regenerieren jedes Pixel und verändern oft Elemente, die unverändert bleiben sollten, wie Figuren oder Hintergrundszenen. Wir stellen Vera vor, ein geschichtetes Diffusionsframework zur inhaltserhaltenden Videobearbeitung. Anstatt das gesamte Video neu zu generieren, erzeugt Vera eine Bearbeitungsschicht zusammen mit einer Alpha-Matte für die Compositing mit dem Quellvideo, wodurch kreative Bearbeitung und Inhaltserhaltung von Grund auf getrennt werden. Um eine kohärente Compositing mit dem Quellvideo zu fördern, erweitern wir das Text-zu-Video DiT zu einer Mixture-of-Transformers (MoT)-Architektur mit separaten DiTs für jede Schicht, die durch gemeinsame Selbstaufmerksamkeit interagieren. Zur Unterstützung des Trainings von Vera erstellen wir zudem einen qualitativ hochwertigen geschichteten Datensatz mit präzisen Alpha-Matten, vielfältigen Szenen und Dynamiken sowie visuellen Effekten. In unserer quantitativen Benchmark- und Präferenzstudie übertrifft Vera führende Open-Source-Videobearbeitungsmodelle in der Inhaltserhaltung, während es bei der Bearbeitungsqualität wettbewerbsfähig bleibt – und das mit nur 486.000 Frames geschichteter Trainingsdaten.

English

Video diffusion models have enabled remarkable progress in video generation and editing. However, content preservation remains a core challenge: existing methods regenerate every pixel and often alter elements that should remain unchanged, such as characters or background scenes. We introduce Vera, a layered diffusion framework for content-preserving video editing. Instead of regenerating the entire video, Vera generates an edit layer along with an alpha matte for compositing with the source video, separating creative editing from content preservation by design. To encourage coherent composition with the source video, we extend the text-to-video DiT into a Mixture-of-Transformers (MoT) architecture, with separate DiTs for each layer that interact through joint self-attention. To support the training of Vera, we further construct a high-quality layered dataset with accurate alpha mattes, diverse scenes and dynamics, and visual effects. Across our quantitative benchmark and human preference study, Vera outperforms leading open-source video editing models in content preservation while remaining competitive in edit quality, using 486K frames of layered training data.