LayerFlow: Ein einheitliches Modell für schichtbewusste Videogenerierung
LayerFlow: A Unified Model for Layer-aware Video Generation
June 4, 2025
Autoren: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI
Zusammenfassung
Wir präsentieren LayerFlow, eine einheitliche Lösung für die schichtbewusste Videogenerierung. Basierend auf schichtspezifischen Eingabeaufforderungen generiert LayerFlow Videos für den transparenten Vordergrund, den sauberen Hintergrund und die gemischte Szene. Es unterstützt auch vielseitige Varianten wie die Zerlegung eines gemischten Videos oder die Generierung des Hintergrunds für einen gegebenen Vordergrund und umgekehrt. Ausgehend von einem Text-zu-Video-Diffusionstransformer organisieren wir die Videos für verschiedene Schichten als Unterclips und nutzen Schicht-Einbettungen, um jeden Clip und die entsprechenden schichtspezifischen Eingabeaufforderungen zu unterscheiden. Auf diese Weise unterstützen wir nahtlos die genannten Varianten in einem einheitlichen Framework. Aufgrund des Mangels an hochwertigen schichtweisen Trainingsvideos entwickeln wir eine mehrstufige Trainingsstrategie, um statische Bilder mit hochwertigen Schichtannotationen zu integrieren. Konkret trainieren wir zunächst das Modell mit qualitativ minderwertigen Videodaten. Anschließend stimmen wir ein Motion LoRA ab, um das Modell mit statischen Bildern kompatibel zu machen. Danach trainieren wir das Content LoRA auf einer Mischung aus Bilddaten mit hochwertigen geschichteten Bildern sowie kopierten Videodaten. Während der Inferenz entfernen wir das Motion LoRA, um flüssige Videos mit den gewünschten Schichten zu generieren.
English
We present LayerFlow, a unified solution for layer-aware video generation.
Given per-layer prompts, LayerFlow generates videos for the transparent
foreground, clean background, and blended scene. It also supports versatile
variants like decomposing a blended video or generating the background for the
given foreground and vice versa. Starting from a text-to-video diffusion
transformer, we organize the videos for different layers as sub-clips, and
leverage layer embeddings to distinguish each clip and the corresponding
layer-wise prompts. In this way, we seamlessly support the aforementioned
variants in one unified framework. For the lack of high-quality layer-wise
training videos, we design a multi-stage training strategy to accommodate
static images with high-quality layer annotations. Specifically, we first train
the model with low-quality video data. Then, we tune a motion LoRA to make the
model compatible with static frames. Afterward, we train the content LoRA on
the mixture of image data with high-quality layered images along with
copy-pasted video data. During inference, we remove the motion LoRA thus
generating smooth videos with desired layers.