Vera : un modèle de diffusion en couches pour l'édition vidéo préservant le contenu

Résumé

Les modèles de diffusion vidéo ont permis des progrès remarquables dans la génération et l'édition vidéo. Cependant, la préservation du contenu reste un défi central : les méthodes existantes régénèrent chaque pixel et modifient souvent des éléments qui devraient rester inchangés, comme les personnages ou les décors de fond. Nous présentons Vera, un cadre de diffusion en couches pour l'édition vidéo avec préservation du contenu. Au lieu de régénérer l'intégralité de la vidéo, Vera génère une couche d'édition accompagnée d'un mat alpha pour le compositing avec la vidéo source, séparant par conception l'édition créative de la préservation du contenu. Pour favoriser une composition cohérente avec la vidéo source, nous étendons le DiT texte-vers-vidéo en une architecture Mixture-of-Transformers (MoT), avec des DiT séparés pour chaque couche qui interagissent via une auto-attention conjointe. Pour soutenir l'entraînement de Vera, nous construisons en outre un ensemble de données en couches de haute qualité avec des mat alpha précis, des scènes et dynamiques diverses, et des effets visuels. Dans notre benchmark quantitatif et notre étude de préférence humaine, Vera surpasse les principaux modèles d'édition vidéo open source en préservation du contenu tout en restant compétitif en qualité d'édition, en utilisant 486 000 images de données d'entraînement en couches.

English

Video diffusion models have enabled remarkable progress in video generation and editing. However, content preservation remains a core challenge: existing methods regenerate every pixel and often alter elements that should remain unchanged, such as characters or background scenes. We introduce Vera, a layered diffusion framework for content-preserving video editing. Instead of regenerating the entire video, Vera generates an edit layer along with an alpha matte for compositing with the source video, separating creative editing from content preservation by design. To encourage coherent composition with the source video, we extend the text-to-video DiT into a Mixture-of-Transformers (MoT) architecture, with separate DiTs for each layer that interact through joint self-attention. To support the training of Vera, we further construct a high-quality layered dataset with accurate alpha mattes, diverse scenes and dynamics, and visual effects. Across our quantitative benchmark and human preference study, Vera outperforms leading open-source video editing models in content preservation while remaining competitive in edit quality, using 486K frames of layered training data.