SkyReels-A2 : Composer n'importe quoi avec des Transformers de diffusion vidéo
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
Auteurs: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
Résumé
Cet article présente SkyReels-A2, un cadre de génération de vidéos contrôlable capable d'assembler des éléments visuels arbitraires (par exemple, des personnages, des objets, des arrière-plans) en vidéos synthétisées à partir d'invites textuelles tout en maintenant une cohérence stricte avec des images de référence pour chaque élément. Nous nommons cette tâche "éléments-vers-vidéo" (E2V), dont les principaux défis résident dans la préservation de la fidélité de chaque élément de référence, la garantie d'une composition cohérente de la scène et la production de résultats naturels. Pour y parvenir, nous concevons d'abord un pipeline de données complet pour construire des triplets invite-référence-vidéo destinés à l'entraînement du modèle. Ensuite, nous proposons un nouveau modèle d'embedding conjoint image-texte pour injecter des représentations multi-éléments dans le processus génératif, équilibrant la cohérence spécifique à chaque élément avec la cohérence globale et l'alignement textuel. Nous optimisons également le pipeline d'inférence pour la vitesse et la stabilité des sorties. De plus, nous introduisons un benchmark soigneusement conçu pour une évaluation systématique, appelé A2 Bench. Les expériences démontrent que notre cadre peut générer des vidéos diversifiées et de haute qualité avec un contrôle précis des éléments. SkyReels-A2 est le premier modèle open-source de qualité commerciale pour la génération d'E2V, surpassant favorablement les modèles commerciaux avancés propriétaires. Nous anticipons que SkyReels-A2 fera progresser les applications créatives telles que le théâtre et le commerce électronique virtuel, repoussant les limites de la génération de vidéos contrôlables.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary