SkyReels-A2:ビデオ拡散トランスフォーマーによる自由な映像合成
SkyReels-A2: Compose Anything in Video Diffusion Transformers
April 3, 2025
著者: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI
要旨
本論文では、SkyReels-A2を紹介する。これは、テキストプロンプトに基づいて任意の視覚要素(キャラクター、オブジェクト、背景など)を合成動画に組み込みながら、各要素の参照画像との厳密な一貫性を維持可能な制御可能な動画生成フレームワークである。我々はこのタスクを「要素から動画(E2V)」と呼び、その主な課題は各参照要素の忠実度の維持、シーンの一貫した構成、自然な出力の実現にある。これらに対処するため、まずモデル学習のためのプロンプト-参照-動画のトリプレットを構築する包括的なデータパイプラインを設計した。次に、多要素表現を生成プロセスに注入し、要素固有の一貫性とグローバルな整合性、テキストアライメントのバランスを取る新しい画像-テキスト結合埋め込みモデルを提案した。また、推論パイプラインを速度と出力安定性の両面で最適化した。さらに、体系的な評価のための慎重に選定されたベンチマーク、A2 Benchを導入した。実験により、本フレームワークが多様で高品質な動画を正確な要素制御で生成できることが実証された。SkyReels-A2は、E2V生成において先進的なクローズドソース商用モデルに対しても優位に立つ、初のオープンソース商用グレードモデルである。我々は、SkyReels-A2がドラマやバーチャルeコマースなどの創造的アプリケーションを推進し、制御可能な動画生成の境界を押し広げることを期待している。
English
This paper presents SkyReels-A2, a controllable video generation framework
capable of assembling arbitrary visual elements (e.g., characters, objects,
backgrounds) into synthesized videos based on textual prompts while maintaining
strict consistency with reference images for each element. We term this task
elements-to-video (E2V), whose primary challenges lie in preserving the
fidelity of each reference element, ensuring coherent composition of the scene,
and achieving natural outputs. To address these, we first design a
comprehensive data pipeline to construct prompt-reference-video triplets for
model training. Next, we propose a novel image-text joint embedding model to
inject multi-element representations into the generative process, balancing
element-specific consistency with global coherence and text alignment. We also
optimize the inference pipeline for both speed and output stability. Moreover,
we introduce a carefully curated benchmark for systematic evaluation, i.e, A2
Bench. Experiments demonstrate that our framework can generate diverse,
high-quality videos with precise element control. SkyReels-A2 is the first
open-source commercial grade model for the generation of E2V, performing
favorably against advanced closed-source commercial models. We anticipate
SkyReels-A2 will advance creative applications such as drama and virtual
e-commerce, pushing the boundaries of controllable video generation.Summary
AI-Generated Summary