LayerFlow: Un Modello Unificato per la Generazione di Video Consapevole dei Livelli
LayerFlow: A Unified Model for Layer-aware Video Generation
June 4, 2025
Autori: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI
Abstract
Presentiamo LayerFlow, una soluzione unificata per la generazione di video consapevole dei livelli. Dati prompt specifici per ogni livello, LayerFlow genera video per il primo piano trasparente, lo sfondo pulito e la scena composita. Supporta inoltre varianti versatili come la scomposizione di un video composito o la generazione dello sfondo per un dato primo piano e viceversa. Partendo da un trasformatore di diffusione testo-video, organizziamo i video per i diversi livelli come sottoclip e sfruttiamo gli embedding di livello per distinguere ciascun clip e i corrispondenti prompt specifici per livello. In questo modo, supportiamo senza soluzione di continuità le suddette varianti in un unico framework. A causa della mancanza di video di addestramento di alta qualità con annotazioni a livello, progettiamo una strategia di addestramento multi-stadio per adattare immagini statiche con annotazioni di livello di alta qualità. Nello specifico, addestriamo prima il modello con dati video di bassa qualità. Poi, ottimizziamo un LoRA di movimento per rendere il modello compatibile con fotogrammi statici. Successivamente, addestriamo il LoRA di contenuto su una miscela di dati immagine con immagini stratificate di alta qualità insieme a dati video copia-incollati. Durante l'inferenza, rimuoviamo il LoRA di movimento, generando così video fluidi con i livelli desiderati.
English
We present LayerFlow, a unified solution for layer-aware video generation.
Given per-layer prompts, LayerFlow generates videos for the transparent
foreground, clean background, and blended scene. It also supports versatile
variants like decomposing a blended video or generating the background for the
given foreground and vice versa. Starting from a text-to-video diffusion
transformer, we organize the videos for different layers as sub-clips, and
leverage layer embeddings to distinguish each clip and the corresponding
layer-wise prompts. In this way, we seamlessly support the aforementioned
variants in one unified framework. For the lack of high-quality layer-wise
training videos, we design a multi-stage training strategy to accommodate
static images with high-quality layer annotations. Specifically, we first train
the model with low-quality video data. Then, we tune a motion LoRA to make the
model compatible with static frames. Afterward, we train the content LoRA on
the mixture of image data with high-quality layered images along with
copy-pasted video data. During inference, we remove the motion LoRA thus
generating smooth videos with desired layers.