ChatPaper.aiChatPaper

LayerFlow: Um Modelo Unificado para Geração de Vídeos com Consciência de Camadas

LayerFlow: A Unified Model for Layer-aware Video Generation

June 4, 2025
Autores: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI

Resumo

Apresentamos o LayerFlow, uma solução unificada para geração de vídeos com consciência de camadas. Dados prompts por camada, o LayerFlow gera vídeos para o primeiro plano transparente, o fundo limpo e a cena mesclada. Ele também suporta variantes versáteis, como decompor um vídeo mesclado ou gerar o fundo para um primeiro plano dado e vice-versa. Partindo de um transformador de difusão de texto para vídeo, organizamos os vídeos para diferentes camadas como sub-clipes e utilizamos embeddings de camada para distinguir cada clipe e os prompts correspondentes por camada. Dessa forma, suportamos de maneira contínua as variantes mencionadas em um único framework unificado. Para suprir a falta de vídeos de treinamento de alta qualidade com camadas, projetamos uma estratégia de treinamento em múltiplos estágios para acomodar imagens estáticas com anotações de camada de alta qualidade. Especificamente, primeiro treinamos o modelo com dados de vídeo de baixa qualidade. Em seguida, ajustamos um LoRA de movimento para tornar o modelo compatível com quadros estáticos. Posteriormente, treinamos o LoRA de conteúdo em uma mistura de dados de imagem com imagens em camadas de alta qualidade juntamente com dados de vídeo copiados e colados. Durante a inferência, removemos o LoRA de movimento, gerando assim vídeos suaves com as camadas desejadas.
English
We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.
PDF132June 5, 2025