SkyReels-A2: Compor Qualquer Coisa em Transformadores de Difusão de Vídeo
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
Autores: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
Resumo
Este artigo apresenta o SkyReels-A2, um framework de geração de vídeo controlável capaz de montar elementos visuais arbitrários (por exemplo, personagens, objetos, cenários) em vídeos sintetizados com base em prompts textuais, mantendo consistência estrita com imagens de referência para cada elemento. Denominamos essa tarefa de elementos-para-vídeo (E2V), cujos principais desafios residem em preservar a fidelidade de cada elemento de referência, garantir a composição coerente da cena e alcançar saídas naturais. Para abordar esses desafios, primeiro projetamos um pipeline de dados abrangente para construir triplas prompt-referência-vídeo para o treinamento do modelo. Em seguida, propomos um novo modelo de incorporação conjunta de imagem e texto para injetar representações de múltiplos elementos no processo generativo, equilibrando a consistência específica do elemento com a coerência global e o alinhamento textual. Também otimizamos o pipeline de inferência para velocidade e estabilidade de saída. Além disso, introduzimos um benchmark cuidadosamente curado para avaliação sistemática, denominado A2 Bench. Experimentos demonstram que nosso framework pode gerar vídeos diversos e de alta qualidade com controle preciso dos elementos. O SkyReels-A2 é o primeiro modelo de código aberto de nível comercial para a geração de E2V, apresentando desempenho favorável em comparação com modelos comerciais avançados de código fechado. Antecipamos que o SkyReels-A2 avançará aplicações criativas, como drama e e-commerce virtual, expandindo os limites da geração de vídeo controlável.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary