ChatPaper.aiChatPaper

SkyReels-A2: Compón cualquier cosa en Transformadores de Difusión de Video

SkyReels-A2: Compose Anything in Video Diffusion Transformers

April 3, 2025
Autores: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI

Resumen

Este artículo presenta SkyReels-A2, un marco de generación de video controlable capaz de ensamblar elementos visuales arbitrarios (por ejemplo, personajes, objetos, fondos) en videos sintetizados basados en indicaciones textuales, manteniendo una consistencia estricta con imágenes de referencia para cada elemento. Denominamos esta tarea elementos-a-video (E2V), cuyos principales desafíos radican en preservar la fidelidad de cada elemento de referencia, garantizar una composición coherente de la escena y lograr resultados naturales. Para abordar estos desafíos, primero diseñamos una canalización de datos integral para construir tripletas de indicación-referencia-video para el entrenamiento del modelo. A continuación, proponemos un novedoso modelo de incrustación conjunta de imagen-texto para inyectar representaciones de múltiples elementos en el proceso generativo, equilibrando la consistencia específica de cada elemento con la coherencia global y la alineación textual. También optimizamos la canalización de inferencia tanto para la velocidad como para la estabilidad de la salida. Además, introducimos un punto de referencia cuidadosamente curado para una evaluación sistemática, es decir, A2 Bench. Los experimentos demuestran que nuestro marco puede generar videos diversos y de alta calidad con un control preciso de los elementos. SkyReels-A2 es el primer modelo de código abierto de grado comercial para la generación de E2V, desempeñándose favorablemente en comparación con modelos comerciales avanzados de código cerrado. Anticipamos que SkyReels-A2 impulsará aplicaciones creativas como el drama y el comercio electrónico virtual, ampliando los límites de la generación de video controlable.
English
This paper presents SkyReels-A2, a controllable video generation framework capable of assembling arbitrary visual elements (e.g., characters, objects, backgrounds) into synthesized videos based on textual prompts while maintaining strict consistency with reference images for each element. We term this task elements-to-video (E2V), whose primary challenges lie in preserving the fidelity of each reference element, ensuring coherent composition of the scene, and achieving natural outputs. To address these, we first design a comprehensive data pipeline to construct prompt-reference-video triplets for model training. Next, we propose a novel image-text joint embedding model to inject multi-element representations into the generative process, balancing element-specific consistency with global coherence and text alignment. We also optimize the inference pipeline for both speed and output stability. Moreover, we introduce a carefully curated benchmark for systematic evaluation, i.e, A2 Bench. Experiments demonstrate that our framework can generate diverse, high-quality videos with precise element control. SkyReels-A2 is the first open-source commercial grade model for the generation of E2V, performing favorably against advanced closed-source commercial models. We anticipate SkyReels-A2 will advance creative applications such as drama and virtual e-commerce, pushing the boundaries of controllable video generation.

Summary

AI-Generated Summary

PDF363April 4, 2025