SkyReels-A2: Создание любого контента с помощью видеодиффузионных трансформеров
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
Авторы: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
Аннотация
В данной статье представлен SkyReels-A2, управляемый фреймворк для генерации видео, способный объединять произвольные визуальные элементы (например, персонажей, объекты, фоны) в синтезированные видео на основе текстовых запросов, сохраняя при этом строгую согласованность с эталонными изображениями для каждого элемента. Мы называем эту задачу "элементы-в-видео" (E2V), основные сложности которой заключаются в сохранении точности каждого эталонного элемента, обеспечении согласованной композиции сцены и достижении естественного результата. Для решения этих задач мы сначала разработали комплексный конвейер данных для создания триплетов "запрос-эталон-видео" для обучения модели. Затем мы предложили новую модель совместного встраивания изображений и текста для внедрения представлений множества элементов в процесс генерации, балансируя между согласованностью отдельных элементов, глобальной целостностью и соответствием тексту. Мы также оптимизировали конвейер вывода для повышения скорости и стабильности результатов. Кроме того, мы представили тщательно отобранный бенчмарк для систематической оценки, A2 Bench. Эксперименты показывают, что наш фреймворк способен генерировать разнообразные высококачественные видео с точным управлением элементами. SkyReels-A2 является первой открытой коммерческой моделью для генерации E2V, демонстрирующей конкурентоспособные результаты по сравнению с передовыми закрытыми коммерческими моделями. Мы ожидаем, что SkyReels-A2 продвинет креативные приложения, такие как драматургия и виртуальная электронная коммерция, расширяя границы управляемой генерации видео.
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary