SkyReels-A2: Создание любого контента с помощью видеодиффузионных трансформеров

Аннотация

В данной статье представлен SkyReels-A2, управляемый фреймворк для генерации видео, способный объединять произвольные визуальные элементы (например, персонажей, объекты, фоны) в синтезированные видео на основе текстовых запросов, сохраняя при этом строгую согласованность с эталонными изображениями для каждого элемента. Мы называем эту задачу "элементы-в-видео" (E2V), основные сложности которой заключаются в сохранении точности каждого эталонного элемента, обеспечении согласованной композиции сцены и достижении естественного результата. Для решения этих задач мы сначала разработали комплексный конвейер данных для создания триплетов "запрос-эталон-видео" для обучения модели. Затем мы предложили новую модель совместного встраивания изображений и текста для внедрения представлений множества элементов в процесс генерации, балансируя между согласованностью отдельных элементов, глобальной целостностью и соответствием тексту. Мы также оптимизировали конвейер вывода для повышения скорости и стабильности результатов. Кроме того, мы представили тщательно отобранный бенчмарк для систематической оценки, A2 Bench. Эксперименты показывают, что наш фреймворк способен генерировать разнообразные высококачественные видео с точным управлением элементами. SkyReels-A2 является первой открытой коммерческой моделью для генерации E2V, демонстрирующей конкурентоспособные результаты по сравнению с передовыми закрытыми коммерческими моделями. Мы ожидаем, что SkyReels-A2 продвинет креативные приложения, такие как драматургия и виртуальная электронная коммерция, расширяя границы управляемой генерации видео.

English

This paper presents SkyReels-A2, a controllable video generation framework capable of assembling arbitrary visual elements (e.g., characters, objects, backgrounds) into synthesized videos based on textual prompts while maintaining strict consistency with reference images for each element. We term this task elements-to-video (E2V), whose primary challenges lie in preserving the fidelity of each reference element, ensuring coherent composition of the scene, and achieving natural outputs. To address these, we first design a comprehensive data pipeline to construct prompt-reference-video triplets for model training. Next, we propose a novel image-text joint embedding model to inject multi-element representations into the generative process, balancing element-specific consistency with global coherence and text alignment. We also optimize the inference pipeline for both speed and output stability. Moreover, we introduce a carefully curated benchmark for systematic evaluation, i.e, A2 Bench. Experiments demonstrate that our framework can generate diverse, high-quality videos with precise element control. SkyReels-A2 is the first open-source commercial grade model for the generation of E2V, performing favorably against advanced closed-source commercial models. We anticipate SkyReels-A2 will advance creative applications such as drama and virtual e-commerce, pushing the boundaries of controllable video generation.

SkyReels-A2: Создание любого контента с помощью видеодиффузионных трансформеров

SkyReels-A2: Compose Anything in Video Diffusion Transformers

Аннотация

Support