ChatPaper.aiChatPaper

STIV: スケーラブルなテキストと画像条件付きビデオ生成

STIV: Scalable Text and Image Conditioned Video Generation

December 10, 2024
著者: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI

要旨

ビデオ生成の分野は著しい進歩を遂げていますが、頑健でスケーラブルなモデルの開発を導く明確で体系的な手順が依然として求められています。本研究では、モデルアーキテクチャ、トレーニング手法、およびデータキュレーション戦略の相互作用を体系的に探究し、STIVと名付けられたシンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案しています。当該フレームの置換を通じて画像条件をDiffusion Transformer(DiT)に統合し、また画像テキスト条件つきクラシファイアフリーガイダンスを介してテキスト条件を組み込むことで、STIVはテキストからビデオ(T2V)およびテキスト画像からビデオ(TI2V)の両方のタスクを同時に実行できるようになります。さらに、STIVはビデオ予測、フレーム補間、多視点生成、長時間ビデオ生成など、さまざまなアプリケーションに簡単に拡張できます。T2I、T2V、TI2Vに関する包括的な削除研究により、STIVはそのシンプルな設計にもかかわらず強力なパフォーマンスを示しています。512解像度の8.7BモデルはVBench T2Vで83.1を達成し、CogVideoX-5B、Pika、Kling、Gen-3などの主要なオープンソースおよびクローズドソースモデルを凌駕しています。同じサイズのモデルは、512解像度でVBench I2Vタスクにおいて90.1という最先端の結果を達成しています。先端のビデオ生成モデルの構築に透明性と拡張性のある手順を提供することで、将来の研究を支援し、より多様で信頼性の高いビデオ生成ソリューションへの進展を加速することを目指しています。
English
The field of video generation has made remarkable advancements, yet there remains a pressing need for a clear, systematic recipe that can guide the development of robust and scalable models. In this work, we present a comprehensive study that systematically explores the interplay of model architectures, training recipes, and data curation strategies, culminating in a simple and scalable text-image-conditioned video generation method, named STIV. Our framework integrates image condition into a Diffusion Transformer (DiT) through frame replacement, while incorporating text conditioning via a joint image-text conditional classifier-free guidance. This design enables STIV to perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks simultaneously. Additionally, STIV can be easily extended to various applications, such as video prediction, frame interpolation, multi-view generation, and long video generation, etc. With comprehensive ablation studies on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V, surpassing both leading open and closed-source models like CogVideoX-5B, Pika, Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and extensible recipe for building cutting-edge video generation models, we aim to empower future research and accelerate progress toward more versatile and reliable video generation solutions.

Summary

AI-Generated Summary

PDF742December 11, 2024