SkyReels-A2: Componeren van Alles in Video Diffusie Transformers
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
Auteurs: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
Samenvatting
Dit artikel presenteert SkyReels-A2, een controleerbaar videogeneratieframework dat in staat is willekeurige visuele elementen (bijv. personages, objecten, achtergronden) te assembleren tot gesynthetiseerde video's op basis van tekstuele prompts, terwijl strikte consistentie met referentiebeelden voor elk element wordt behouden. We noemen deze taak elements-to-video (E2V), waarvan de belangrijkste uitdagingen liggen in het behouden van de trouw van elk referentie-element, het waarborgen van een samenhangende compositie van de scène en het bereiken van natuurlijke uitvoer. Om deze uitdagingen aan te pakken, ontwerpen we eerst een uitgebreide datapijplijn om prompt-referentie-video-triplets te construeren voor modeltraining. Vervolgens stellen we een nieuw beeld-tekst gezamenlijk inbeddingsmodel voor om multi-elementrepresentaties in het generatieve proces te injecteren, waarbij een balans wordt gevonden tussen elementspecifieke consistentie, globale samenhang en tekstuitlijning. We optimaliseren ook de inferentiepijplijn voor zowel snelheid als uitvoerstabiliteit. Bovendien introduceren we een zorgvuldig samengestelde benchmark voor systematische evaluatie, genaamd A2 Bench. Experimenten tonen aan dat ons framework diverse, hoogwaardige video's kan genereren met precieze elementcontrole. SkyReels-A2 is het eerste open-source commerciële model voor de generatie van E2V, dat gunstig presteert in vergelijking met geavanceerde closed-source commerciële modellen. We verwachten dat SkyReels-A2 creatieve toepassingen zoals drama en virtuele e-commerce zal bevorderen, waardoor de grenzen van controleerbare videogeneratie worden verlegd.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary