ChatPaper.aiChatPaper

LayerFlow: Un Modello Unificato per la Generazione di Video Consapevole dei Livelli

LayerFlow: A Unified Model for Layer-aware Video Generation

June 4, 2025
Autori: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI

Abstract

Presentiamo LayerFlow, una soluzione unificata per la generazione di video consapevole dei livelli. Dati prompt specifici per ogni livello, LayerFlow genera video per il primo piano trasparente, lo sfondo pulito e la scena composita. Supporta inoltre varianti versatili come la scomposizione di un video composito o la generazione dello sfondo per un dato primo piano e viceversa. Partendo da un trasformatore di diffusione testo-video, organizziamo i video per i diversi livelli come sottoclip e sfruttiamo gli embedding di livello per distinguere ciascun clip e i corrispondenti prompt specifici per livello. In questo modo, supportiamo senza soluzione di continuità le suddette varianti in un unico framework. A causa della mancanza di video di addestramento di alta qualità con annotazioni a livello, progettiamo una strategia di addestramento multi-stadio per adattare immagini statiche con annotazioni di livello di alta qualità. Nello specifico, addestriamo prima il modello con dati video di bassa qualità. Poi, ottimizziamo un LoRA di movimento per rendere il modello compatibile con fotogrammi statici. Successivamente, addestriamo il LoRA di contenuto su una miscela di dati immagine con immagini stratificate di alta qualità insieme a dati video copia-incollati. Durante l'inferenza, rimuoviamo il LoRA di movimento, generando così video fluidi con i livelli desiderati.
English
We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.
PDF132June 5, 2025