LayerFlow: Een Geïntegreerd Model voor Laagbewuste Videogeneratie

Samenvatting

We presenteren LayerFlow, een geïntegreerde oplossing voor laagbewuste videogeneratie. Gegeven prompts per laag, genereert LayerFlow video's voor de transparante voorgrond, schone achtergrond en het samengevoegde beeld. Het ondersteunt ook veelzijdige varianten, zoals het ontleden van een samengevoegde video of het genereren van de achtergrond voor een gegeven voorgrond en vice versa. Uitgaande van een tekst-naar-video diffusietransformer, organiseren we de video's voor verschillende lagen als subclips en benutten we laaginbeddingen om elke clip en de bijbehorende laaggewijze prompts te onderscheiden. Op deze manier ondersteunen we naadloos de bovengenoemde varianten in één geïntegreerd raamwerk. Vanwege het gebrek aan hoogwaardige trainingsvideo's met laaggewijze annotaties, ontwerpen we een meerfasige trainingsstrategie om statische afbeeldingen met hoogwaardige laagannotaties te verwerken. Specifiek trainen we eerst het model met laagkwalitatieve videogegevens. Vervolgens tunen we een motion LoRA om het model compatibel te maken met statische frames. Daarna trainen we de content LoRA op een mix van beeldgegevens met hoogwaardige gelaagde afbeeldingen samen met gekopieerde videogegevens. Tijdens de inferentie verwijderen we de motion LoRA, waardoor we vloeiende video's genereren met de gewenste lagen.

English

We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.

LayerFlow: Een Geïntegreerd Model voor Laagbewuste Videogeneratie

LayerFlow: A Unified Model for Layer-aware Video Generation

Samenvatting

Support