SkyReels-A2: Alles in Video-Diffusion-Transformatoren komponieren
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
Autoren: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
Zusammenfassung
Dieses Papier stellt SkyReels-A2 vor, ein kontrollierbares Videogenerierungsframework, das in der Lage ist, beliebige visuelle Elemente (z. B. Charaktere, Objekte, Hintergründe) in synthetisierte Videos zu integrieren, basierend auf textuellen Eingabeaufforderungen, während gleichzeitig eine strikte Konsistenz mit Referenzbildern für jedes Element gewährleistet wird. Wir bezeichnen diese Aufgabe als Elements-to-Video (E2V), deren Hauptherausforderungen in der Bewahrung der Treue jedes Referenzelements, der Sicherstellung einer kohärenten Komposition der Szene und der Erzielung natürlicher Ausgaben liegen. Um diese zu bewältigen, entwerfen wir zunächst eine umfassende Datenpipeline zur Konstruktion von Prompt-Referenz-Video-Tripeln für das Modelltraining. Anschließend schlagen wir ein neuartiges Bild-Text-Joint-Embedding-Modell vor, um Mehrfachelementdarstellungen in den Generierungsprozess einzubetten, wobei elementspezifische Konsistenz mit globaler Kohärenz und Textausrichtung ausbalanciert wird. Wir optimieren auch die Inferenzpipeline sowohl für Geschwindigkeit als auch für Ausgabestabilität. Darüber hinaus führen wir einen sorgfältig kuratierten Benchmark für die systematische Bewertung ein, d. h. A2 Bench. Experimente zeigen, dass unser Framework diverse, hochwertige Videos mit präziser Elementkontrolle generieren kann. SkyReels-A2 ist das erste Open-Source-Modell auf kommerziellem Niveau für die Generierung von E2V und schneidet im Vergleich zu fortschrittlichen Closed-Source-Kommerzmodellen günstig ab. Wir erwarten, dass SkyReels-A2 kreative Anwendungen wie Drama und virtuellen E-Commerce vorantreiben und die Grenzen der kontrollierbaren Videogenerierung erweitern wird.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary