LayerFlow: Um Modelo Unificado para Geração de Vídeos com Consciência de Camadas
LayerFlow: A Unified Model for Layer-aware Video Generation
June 4, 2025
Autores: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI
Resumo
Apresentamos o LayerFlow, uma solução unificada para geração de vídeos com consciência de camadas. Dados prompts por camada, o LayerFlow gera vídeos para o primeiro plano transparente, o fundo limpo e a cena mesclada. Ele também suporta variantes versáteis, como decompor um vídeo mesclado ou gerar o fundo para um primeiro plano dado e vice-versa. Partindo de um transformador de difusão de texto para vídeo, organizamos os vídeos para diferentes camadas como sub-clipes e utilizamos embeddings de camada para distinguir cada clipe e os prompts correspondentes por camada. Dessa forma, suportamos de maneira contínua as variantes mencionadas em um único framework unificado. Para suprir a falta de vídeos de treinamento de alta qualidade com camadas, projetamos uma estratégia de treinamento em múltiplos estágios para acomodar imagens estáticas com anotações de camada de alta qualidade. Especificamente, primeiro treinamos o modelo com dados de vídeo de baixa qualidade. Em seguida, ajustamos um LoRA de movimento para tornar o modelo compatível com quadros estáticos. Posteriormente, treinamos o LoRA de conteúdo em uma mistura de dados de imagem com imagens em camadas de alta qualidade juntamente com dados de vídeo copiados e colados. Durante a inferência, removemos o LoRA de movimento, gerando assim vídeos suaves com as camadas desejadas.
English
We present LayerFlow, a unified solution for layer-aware video generation.
Given per-layer prompts, LayerFlow generates videos for the transparent
foreground, clean background, and blended scene. It also supports versatile
variants like decomposing a blended video or generating the background for the
given foreground and vice versa. Starting from a text-to-video diffusion
transformer, we organize the videos for different layers as sub-clips, and
leverage layer embeddings to distinguish each clip and the corresponding
layer-wise prompts. In this way, we seamlessly support the aforementioned
variants in one unified framework. For the lack of high-quality layer-wise
training videos, we design a multi-stage training strategy to accommodate
static images with high-quality layer annotations. Specifically, we first train
the model with low-quality video data. Then, we tune a motion LoRA to make the
model compatible with static frames. Afterward, we train the content LoRA on
the mixture of image data with high-quality layered images along with
copy-pasted video data. During inference, we remove the motion LoRA thus
generating smooth videos with desired layers.