STIV:可擴展的文本和圖像條件視頻生成STIV: Scalable Text and Image Conditioned Video Generation
在影片生成領域取得了顯著的進展,但仍迫切需要一個清晰、系統化的配方,來引導強健且可擴展模型的開發。在這項工作中,我們提出了一項全面研究,系統地探索了模型架構、訓練配方和數據整理策略之間的相互作用,最終形成了一種簡單且可擴展的文本-圖像條件影片生成方法,名為STIV。我們的框架通過幀替換將圖像條件整合到擴散Transformer(DiT)中,同時通過聯合圖像-文本條件無分類器指導來整合文本條件。這種設計使STIV能夠同時執行文本到影片(T2V)和文本-圖像到影片(TI2V)任務。此外,STIV可以輕鬆擴展到各種應用,如影片預測、幀插補、多視角生成和長影片生成等。通過對T2I、T2V和TI2V進行全面的消融研究,STIV表現出強大的性能,儘管其設計簡單。一個具有512分辨率的87億模型在VBench T2V上達到83.1的分數,超越了CogVideoX-5B、Pika、Kling和Gen-3等領先的開源和封閉源模型。相同大小的模型在512分辨率下還實現了VBench I2V任務的最新成果90.1。通過提供一個透明且可擴展的配方來構建尖端影片生成模型,我們旨在賦予未來研究更多的能量,並加速朝著更多功能和可靠的影片生成解決方案的進展。