ChatPaper.aiChatPaper

SkyReels-A2: Componeren van Alles in Video Diffusie Transformers

SkyReels-A2: Compose Anything in Video Diffusion Transformers

April 3, 2025
Auteurs: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI

Samenvatting

Dit artikel presenteert SkyReels-A2, een controleerbaar videogeneratieframework dat in staat is willekeurige visuele elementen (bijv. personages, objecten, achtergronden) te assembleren tot gesynthetiseerde video's op basis van tekstuele prompts, terwijl strikte consistentie met referentiebeelden voor elk element wordt behouden. We noemen deze taak elements-to-video (E2V), waarvan de belangrijkste uitdagingen liggen in het behouden van de trouw van elk referentie-element, het waarborgen van een samenhangende compositie van de scène en het bereiken van natuurlijke uitvoer. Om deze uitdagingen aan te pakken, ontwerpen we eerst een uitgebreide datapijplijn om prompt-referentie-video-triplets te construeren voor modeltraining. Vervolgens stellen we een nieuw beeld-tekst gezamenlijk inbeddingsmodel voor om multi-elementrepresentaties in het generatieve proces te injecteren, waarbij een balans wordt gevonden tussen elementspecifieke consistentie, globale samenhang en tekstuitlijning. We optimaliseren ook de inferentiepijplijn voor zowel snelheid als uitvoerstabiliteit. Bovendien introduceren we een zorgvuldig samengestelde benchmark voor systematische evaluatie, genaamd A2 Bench. Experimenten tonen aan dat ons framework diverse, hoogwaardige video's kan genereren met precieze elementcontrole. SkyReels-A2 is het eerste open-source commerciële model voor de generatie van E2V, dat gunstig presteert in vergelijking met geavanceerde closed-source commerciële modellen. We verwachten dat SkyReels-A2 creatieve toepassingen zoals drama en virtuele e-commerce zal bevorderen, waardoor de grenzen van controleerbare videogeneratie worden verlegd.
English
This paper presents SkyReels-A2, a controllable video generation framework capable of assembling arbitrary visual elements (e.g., characters, objects, backgrounds) into synthesized videos based on textual prompts while maintaining strict consistency with reference images for each element. We term this task elements-to-video (E2V), whose primary challenges lie in preserving the fidelity of each reference element, ensuring coherent composition of the scene, and achieving natural outputs. To address these, we first design a comprehensive data pipeline to construct prompt-reference-video triplets for model training. Next, we propose a novel image-text joint embedding model to inject multi-element representations into the generative process, balancing element-specific consistency with global coherence and text alignment. We also optimize the inference pipeline for both speed and output stability. Moreover, we introduce a carefully curated benchmark for systematic evaluation, i.e, A2 Bench. Experiments demonstrate that our framework can generate diverse, high-quality videos with precise element control. SkyReels-A2 is the first open-source commercial grade model for the generation of E2V, performing favorably against advanced closed-source commercial models. We anticipate SkyReels-A2 will advance creative applications such as drama and virtual e-commerce, pushing the boundaries of controllable video generation.

Summary

AI-Generated Summary

PDF363April 4, 2025