STIV: スケーラブルなテキストと画像条件付きビデオ生成STIV: Scalable Text and Image Conditioned Video Generation
ビデオ生成の分野は著しい進歩を遂げていますが、頑健でスケーラブルなモデルの開発を導く明確で体系的な手順が依然として求められています。本研究では、モデルアーキテクチャ、トレーニング手法、およびデータキュレーション戦略の相互作用を体系的に探究し、STIVと名付けられたシンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案しています。当該フレームの置換を通じて画像条件をDiffusion Transformer(DiT)に統合し、また画像テキスト条件つきクラシファイアフリーガイダンスを介してテキスト条件を組み込むことで、STIVはテキストからビデオ(T2V)およびテキスト画像からビデオ(TI2V)の両方のタスクを同時に実行できるようになります。さらに、STIVはビデオ予測、フレーム補間、多視点生成、長時間ビデオ生成など、さまざまなアプリケーションに簡単に拡張できます。T2I、T2V、TI2Vに関する包括的な削除研究により、STIVはそのシンプルな設計にもかかわらず強力なパフォーマンスを示しています。512解像度の8.7BモデルはVBench T2Vで83.1を達成し、CogVideoX-5B、Pika、Kling、Gen-3などの主要なオープンソースおよびクローズドソースモデルを凌駕しています。同じサイズのモデルは、512解像度でVBench I2Vタスクにおいて90.1という最先端の結果を達成しています。先端のビデオ生成モデルの構築に透明性と拡張性のある手順を提供することで、将来の研究を支援し、より多様で信頼性の高いビデオ生成ソリューションへの進展を加速することを目指しています。