LayerFlow: Een Geïntegreerd Model voor Laagbewuste Videogeneratie
LayerFlow: A Unified Model for Layer-aware Video Generation
June 4, 2025
Auteurs: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI
Samenvatting
We presenteren LayerFlow, een geïntegreerde oplossing voor laagbewuste videogeneratie.
Gegeven prompts per laag, genereert LayerFlow video's voor de transparante voorgrond,
schone achtergrond en het samengevoegde beeld. Het ondersteunt ook veelzijdige varianten,
zoals het ontleden van een samengevoegde video of het genereren van de achtergrond voor
een gegeven voorgrond en vice versa. Uitgaande van een tekst-naar-video diffusietransformer,
organiseren we de video's voor verschillende lagen als subclips en benutten we laaginbeddingen
om elke clip en de bijbehorende laaggewijze prompts te onderscheiden. Op deze manier ondersteunen
we naadloos de bovengenoemde varianten in één geïntegreerd raamwerk. Vanwege het gebrek aan
hoogwaardige trainingsvideo's met laaggewijze annotaties, ontwerpen we een meerfasige
trainingsstrategie om statische afbeeldingen met hoogwaardige laagannotaties te verwerken.
Specifiek trainen we eerst het model met laagkwalitatieve videogegevens. Vervolgens tunen we
een motion LoRA om het model compatibel te maken met statische frames. Daarna trainen we de
content LoRA op een mix van beeldgegevens met hoogwaardige gelaagde afbeeldingen samen met
gekopieerde videogegevens. Tijdens de inferentie verwijderen we de motion LoRA, waardoor
we vloeiende video's genereren met de gewenste lagen.
English
We present LayerFlow, a unified solution for layer-aware video generation.
Given per-layer prompts, LayerFlow generates videos for the transparent
foreground, clean background, and blended scene. It also supports versatile
variants like decomposing a blended video or generating the background for the
given foreground and vice versa. Starting from a text-to-video diffusion
transformer, we organize the videos for different layers as sub-clips, and
leverage layer embeddings to distinguish each clip and the corresponding
layer-wise prompts. In this way, we seamlessly support the aforementioned
variants in one unified framework. For the lack of high-quality layer-wise
training videos, we design a multi-stage training strategy to accommodate
static images with high-quality layer annotations. Specifically, we first train
the model with low-quality video data. Then, we tune a motion LoRA to make the
model compatible with static frames. Afterward, we train the content LoRA on
the mixture of image data with high-quality layered images along with
copy-pasted video data. During inference, we remove the motion LoRA thus
generating smooth videos with desired layers.