Vera: Un Modelo de Difusión por Capas para la Edición de Video con Preservación de Contenido

Resumen

Los modelos de difusión de video han permitido avances notables en la generación y edición de video. Sin embargo, la preservación del contenido sigue siendo un desafío central: los métodos existentes regeneran cada píxel y a menudo alteran elementos que deberían permanecer invariables, como personajes o escenas de fondo. Presentamos Vera, un marco de difusión en capas para la edición de video con preservación de contenido. En lugar de regenerar el video completo, Vera genera una capa de edición junto con una máscara alfa para su composición con el video fuente, separando por diseño la edición creativa de la preservación del contenido. Para fomentar una composición coherente con el video fuente, extendemos el DiT de texto a video a una arquitectura de Mixtura de Transformadores (MoT), con DiTs separados para cada capa que interactúan a través de autoatención conjunta. Para respaldar el entrenamiento de Vera, construimos además un conjunto de datos en capas de alta calidad con máscaras alfa precisas, escenas y dinámicas diversas, y efectos visuales. En nuestro punto de referencia cuantitativo y estudio de preferencia humana, Vera supera a los modelos líderes de edición de video de código abierto en preservación de contenido, manteniéndose competitiva en calidad de edición, utilizando 486K fotogramas de datos de entrenamiento en capas.

English

Video diffusion models have enabled remarkable progress in video generation and editing. However, content preservation remains a core challenge: existing methods regenerate every pixel and often alter elements that should remain unchanged, such as characters or background scenes. We introduce Vera, a layered diffusion framework for content-preserving video editing. Instead of regenerating the entire video, Vera generates an edit layer along with an alpha matte for compositing with the source video, separating creative editing from content preservation by design. To encourage coherent composition with the source video, we extend the text-to-video DiT into a Mixture-of-Transformers (MoT) architecture, with separate DiTs for each layer that interact through joint self-attention. To support the training of Vera, we further construct a high-quality layered dataset with accurate alpha mattes, diverse scenes and dynamics, and visual effects. Across our quantitative benchmark and human preference study, Vera outperforms leading open-source video editing models in content preservation while remaining competitive in edit quality, using 486K frames of layered training data.