ChatPaper.aiChatPaper

LayerFlow: Ein einheitliches Modell für schichtbewusste Videogenerierung

LayerFlow: A Unified Model for Layer-aware Video Generation

June 4, 2025
Autoren: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
cs.AI

Zusammenfassung

Wir präsentieren LayerFlow, eine einheitliche Lösung für die schichtbewusste Videogenerierung. Basierend auf schichtspezifischen Eingabeaufforderungen generiert LayerFlow Videos für den transparenten Vordergrund, den sauberen Hintergrund und die gemischte Szene. Es unterstützt auch vielseitige Varianten wie die Zerlegung eines gemischten Videos oder die Generierung des Hintergrunds für einen gegebenen Vordergrund und umgekehrt. Ausgehend von einem Text-zu-Video-Diffusionstransformer organisieren wir die Videos für verschiedene Schichten als Unterclips und nutzen Schicht-Einbettungen, um jeden Clip und die entsprechenden schichtspezifischen Eingabeaufforderungen zu unterscheiden. Auf diese Weise unterstützen wir nahtlos die genannten Varianten in einem einheitlichen Framework. Aufgrund des Mangels an hochwertigen schichtweisen Trainingsvideos entwickeln wir eine mehrstufige Trainingsstrategie, um statische Bilder mit hochwertigen Schichtannotationen zu integrieren. Konkret trainieren wir zunächst das Modell mit qualitativ minderwertigen Videodaten. Anschließend stimmen wir ein Motion LoRA ab, um das Modell mit statischen Bildern kompatibel zu machen. Danach trainieren wir das Content LoRA auf einer Mischung aus Bilddaten mit hochwertigen geschichteten Bildern sowie kopierten Videodaten. Während der Inferenz entfernen wir das Motion LoRA, um flüssige Videos mit den gewünschten Schichten zu generieren.
English
We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.
PDF132June 5, 2025