STIV: Skalierbare Videoerzeugung unter Verwendung von Text und Bildern
STIV: Scalable Text and Image Conditioned Video Generation
December 10, 2024
Autoren: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI
Zusammenfassung
Das Gebiet der Videogenerierung hat bemerkenswerte Fortschritte gemacht, dennoch besteht weiterhin ein dringender Bedarf an einem klaren, systematischen Leitfaden, der die Entwicklung robuster und skalierbarer Modelle lenken kann. In dieser Arbeit präsentieren wir eine umfassende Studie, die systematisch das Zusammenspiel von Modellarchitekturen, Trainingsrezepten und Datenkurierungsstrategien untersucht und in einer einfachen und skalierbaren textbildkonditionierten Videogenerierungsmethode namens STIV gipfelt. Unser Rahmenwerk integriert die Bildkonditionierung in einen Diffusionstransformator (DiT) durch Frame-Ersatz und bezieht die Textkonditionierung über einen gemeinsamen bildtextkonditionierten klassifikatorfreien Leitfaden ein. Diese Gestaltung ermöglicht es STIV, sowohl Text-zu-Video (T2V) als auch Text-Bild-zu-Video (TI2V) Aufgaben gleichzeitig auszuführen. Darüber hinaus kann STIV leicht auf verschiedene Anwendungen wie Videovorhersage, Frame-Interpolation, Mehransichtsgenerierung und Langzeitvideogenerierung usw. erweitert werden. Mit umfassenden Ablationsstudien zu T2I, T2V und TI2V zeigt STIV trotz seiner einfachen Gestaltung eine starke Leistung. Ein 8,7B-Modell mit 512 Auflösung erreicht 83,1 auf VBench T2V und übertrifft sowohl führende Open-Source- als auch Closed-Source-Modelle wie CogVideoX-5B, Pika, Kling und Gen-3. Das gleichgroße Modell erzielt auch ein Spitzenresultat von 90,1 bei der VBench I2V-Aufgabe mit 512 Auflösung. Indem wir ein transparentes und erweiterbares Rezept für den Aufbau modernster Videogenerierungsmodelle bereitstellen, zielen wir darauf ab, zukünftige Forschung zu stärken und den Fortschritt in Richtung vielseitigerer und zuverlässigerer Videogenerierungslösungen zu beschleunigen.
English
The field of video generation has made remarkable advancements, yet there
remains a pressing need for a clear, systematic recipe that can guide the
development of robust and scalable models. In this work, we present a
comprehensive study that systematically explores the interplay of model
architectures, training recipes, and data curation strategies, culminating in a
simple and scalable text-image-conditioned video generation method, named STIV.
Our framework integrates image condition into a Diffusion Transformer (DiT)
through frame replacement, while incorporating text conditioning via a joint
image-text conditional classifier-free guidance. This design enables STIV to
perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks
simultaneously. Additionally, STIV can be easily extended to various
applications, such as video prediction, frame interpolation, multi-view
generation, and long video generation, etc. With comprehensive ablation studies
on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple
design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V,
surpassing both leading open and closed-source models like CogVideoX-5B, Pika,
Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result
of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and
extensible recipe for building cutting-edge video generation models, we aim to
empower future research and accelerate progress toward more versatile and
reliable video generation solutions.Summary
AI-Generated Summary