ChatPaper.aiChatPaper

LayerFlow: Un Modelo Unificado para la Generación de Videos Consciente de Capas

LayerFlow: A Unified Model for Layer-aware Video Generation

June 4, 2025
Autores: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI

Resumen

Presentamos LayerFlow, una solución unificada para la generación de videos consciente de capas. Dados indicaciones por capa, LayerFlow genera videos para el primer plano transparente, el fondo limpio y la escena combinada. También admite variantes versátiles, como descomponer un video combinado o generar el fondo para un primer plano dado y viceversa. Partiendo de un transformador de difusión de texto a video, organizamos los videos para diferentes capas como subclips y aprovechamos incrustaciones de capas para distinguir cada clip y las indicaciones correspondientes por capa. De esta manera, admitimos sin problemas las variantes mencionadas en un marco unificado. Ante la falta de videos de entrenamiento de alta calidad por capas, diseñamos una estrategia de entrenamiento en múltiples etapas para adaptarnos a imágenes estáticas con anotaciones de capas de alta calidad. Específicamente, primero entrenamos el modelo con datos de video de baja calidad. Luego, ajustamos un LoRA de movimiento para que el modelo sea compatible con fotogramas estáticos. Posteriormente, entrenamos el LoRA de contenido en una mezcla de datos de imagen con imágenes en capas de alta calidad junto con datos de video copiados y pegados. Durante la inferencia, eliminamos el LoRA de movimiento, generando así videos fluidos con las capas deseadas.
English
We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.
PDF132June 5, 2025