ChatPaper.aiChatPaper

SkyReels-A2:ビデオ拡散トランスフォーマーによる自由な映像合成

SkyReels-A2: Compose Anything in Video Diffusion Transformers

April 3, 2025
著者: Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
cs.AI

要旨

本論文では、SkyReels-A2を紹介する。これは、テキストプロンプトに基づいて任意の視覚要素(キャラクター、オブジェクト、背景など)を合成動画に組み込みながら、各要素の参照画像との厳密な一貫性を維持可能な制御可能な動画生成フレームワークである。我々はこのタスクを「要素から動画(E2V)」と呼び、その主な課題は各参照要素の忠実度の維持、シーンの一貫した構成、自然な出力の実現にある。これらに対処するため、まずモデル学習のためのプロンプト-参照-動画のトリプレットを構築する包括的なデータパイプラインを設計した。次に、多要素表現を生成プロセスに注入し、要素固有の一貫性とグローバルな整合性、テキストアライメントのバランスを取る新しい画像-テキスト結合埋め込みモデルを提案した。また、推論パイプラインを速度と出力安定性の両面で最適化した。さらに、体系的な評価のための慎重に選定されたベンチマーク、A2 Benchを導入した。実験により、本フレームワークが多様で高品質な動画を正確な要素制御で生成できることが実証された。SkyReels-A2は、E2V生成において先進的なクローズドソース商用モデルに対しても優位に立つ、初のオープンソース商用グレードモデルである。我々は、SkyReels-A2がドラマやバーチャルeコマースなどの創造的アプリケーションを推進し、制御可能な動画生成の境界を押し広げることを期待している。
English
This paper presents SkyReels-A2, a controllable video generation framework capable of assembling arbitrary visual elements (e.g., characters, objects, backgrounds) into synthesized videos based on textual prompts while maintaining strict consistency with reference images for each element. We term this task elements-to-video (E2V), whose primary challenges lie in preserving the fidelity of each reference element, ensuring coherent composition of the scene, and achieving natural outputs. To address these, we first design a comprehensive data pipeline to construct prompt-reference-video triplets for model training. Next, we propose a novel image-text joint embedding model to inject multi-element representations into the generative process, balancing element-specific consistency with global coherence and text alignment. We also optimize the inference pipeline for both speed and output stability. Moreover, we introduce a carefully curated benchmark for systematic evaluation, i.e, A2 Bench. Experiments demonstrate that our framework can generate diverse, high-quality videos with precise element control. SkyReels-A2 is the first open-source commercial grade model for the generation of E2V, performing favorably against advanced closed-source commercial models. We anticipate SkyReels-A2 will advance creative applications such as drama and virtual e-commerce, pushing the boundaries of controllable video generation.

Summary

AI-Generated Summary

PDF363April 4, 2025