Vera: Een gelaagd diffusiemodel voor inhoudbehoudende videobewerking

Samenvatting

Videodiffusiemodellen hebben opmerkelijk vooruitgang mogelijk gemaakt op het gebied van videogeneratie en -bewerking. Toch blijft inhoudsbehoud een kernuitdaging: bestaande methoden genereren elke pixel opnieuw en wijzigen vaak elementen die onveranderd zouden moeten blijven, zoals personages of achtergrondscènes. We introduceren Vera, een gelaagd diffusieframework voor inhoudsbehoud bij videobewerking. In plaats van de gehele video opnieuw te genereren, produceert Vera een bewerkingslaag samen met een alfamasker voor compositie met de bronvideo, waardoor creatieve bewerking en inhoudsbehoud door ontwerp worden gescheiden. Om een coherente compositie met de bronvideo te bevorderen, breiden we de tekst-naar-video DiT uit naar een Mixture-of-Transformers (MoT)-architectuur, met aparte DiT's voor elke laag die interageren via gezamenlijke zelfaandacht. Ter ondersteuning van de training van Vera construeren we verder een hoogwaardige gelaagde dataset met nauwkeurige alfamaskers, diverse scènes en dynamieken, en visuele effecten. In onze kwantitatieve benchmark en voorkeursstudie onder mensen overtreft Vera toonaangevende open-source videobewerkingsmodellen in inhoudsbehoud, terwijl het competitief blijft in bewerkingskwaliteit, gebruikmakend van 486K frames aan gelaagde trainingsdata.

English

Video diffusion models have enabled remarkable progress in video generation and editing. However, content preservation remains a core challenge: existing methods regenerate every pixel and often alter elements that should remain unchanged, such as characters or background scenes. We introduce Vera, a layered diffusion framework for content-preserving video editing. Instead of regenerating the entire video, Vera generates an edit layer along with an alpha matte for compositing with the source video, separating creative editing from content preservation by design. To encourage coherent composition with the source video, we extend the text-to-video DiT into a Mixture-of-Transformers (MoT) architecture, with separate DiTs for each layer that interact through joint self-attention. To support the training of Vera, we further construct a high-quality layered dataset with accurate alpha mattes, diverse scenes and dynamics, and visual effects. Across our quantitative benchmark and human preference study, Vera outperforms leading open-source video editing models in content preservation while remaining competitive in edit quality, using 486K frames of layered training data.