LayerFlow: Un Modelo Unificado para la Generación de Videos Consciente de Capas
LayerFlow: A Unified Model for Layer-aware Video Generation
June 4, 2025
Autores: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI
Resumen
Presentamos LayerFlow, una solución unificada para la generación de videos consciente de capas. Dados indicaciones por capa, LayerFlow genera videos para el primer plano transparente, el fondo limpio y la escena combinada. También admite variantes versátiles, como descomponer un video combinado o generar el fondo para un primer plano dado y viceversa. Partiendo de un transformador de difusión de texto a video, organizamos los videos para diferentes capas como subclips y aprovechamos incrustaciones de capas para distinguir cada clip y las indicaciones correspondientes por capa. De esta manera, admitimos sin problemas las variantes mencionadas en un marco unificado. Ante la falta de videos de entrenamiento de alta calidad por capas, diseñamos una estrategia de entrenamiento en múltiples etapas para adaptarnos a imágenes estáticas con anotaciones de capas de alta calidad. Específicamente, primero entrenamos el modelo con datos de video de baja calidad. Luego, ajustamos un LoRA de movimiento para que el modelo sea compatible con fotogramas estáticos. Posteriormente, entrenamos el LoRA de contenido en una mezcla de datos de imagen con imágenes en capas de alta calidad junto con datos de video copiados y pegados. Durante la inferencia, eliminamos el LoRA de movimiento, generando así videos fluidos con las capas deseadas.
English
We present LayerFlow, a unified solution for layer-aware video generation.
Given per-layer prompts, LayerFlow generates videos for the transparent
foreground, clean background, and blended scene. It also supports versatile
variants like decomposing a blended video or generating the background for the
given foreground and vice versa. Starting from a text-to-video diffusion
transformer, we organize the videos for different layers as sub-clips, and
leverage layer embeddings to distinguish each clip and the corresponding
layer-wise prompts. In this way, we seamlessly support the aforementioned
variants in one unified framework. For the lack of high-quality layer-wise
training videos, we design a multi-stage training strategy to accommodate
static images with high-quality layer annotations. Specifically, we first train
the model with low-quality video data. Then, we tune a motion LoRA to make the
model compatible with static frames. Afterward, we train the content LoRA on
the mixture of image data with high-quality layered images along with
copy-pasted video data. During inference, we remove the motion LoRA thus
generating smooth videos with desired layers.