STIV: Skalierbare Videoerzeugung unter Verwendung von Text und BildernSTIV: Scalable Text and Image Conditioned Video Generation
Das Gebiet der Videogenerierung hat bemerkenswerte Fortschritte gemacht, dennoch besteht weiterhin ein dringender Bedarf an einem klaren, systematischen Leitfaden, der die Entwicklung robuster und skalierbarer Modelle lenken kann. In dieser Arbeit präsentieren wir eine umfassende Studie, die systematisch das Zusammenspiel von Modellarchitekturen, Trainingsrezepten und Datenkurierungsstrategien untersucht und in einer einfachen und skalierbaren textbildkonditionierten Videogenerierungsmethode namens STIV gipfelt. Unser Rahmenwerk integriert die Bildkonditionierung in einen Diffusionstransformator (DiT) durch Frame-Ersatz und bezieht die Textkonditionierung über einen gemeinsamen bildtextkonditionierten klassifikatorfreien Leitfaden ein. Diese Gestaltung ermöglicht es STIV, sowohl Text-zu-Video (T2V) als auch Text-Bild-zu-Video (TI2V) Aufgaben gleichzeitig auszuführen. Darüber hinaus kann STIV leicht auf verschiedene Anwendungen wie Videovorhersage, Frame-Interpolation, Mehransichtsgenerierung und Langzeitvideogenerierung usw. erweitert werden. Mit umfassenden Ablationsstudien zu T2I, T2V und TI2V zeigt STIV trotz seiner einfachen Gestaltung eine starke Leistung. Ein 8,7B-Modell mit 512 Auflösung erreicht 83,1 auf VBench T2V und übertrifft sowohl führende Open-Source- als auch Closed-Source-Modelle wie CogVideoX-5B, Pika, Kling und Gen-3. Das gleichgroße Modell erzielt auch ein Spitzenresultat von 90,1 bei der VBench I2V-Aufgabe mit 512 Auflösung. Indem wir ein transparentes und erweiterbares Rezept für den Aufbau modernster Videogenerierungsmodelle bereitstellen, zielen wir darauf ab, zukünftige Forschung zu stärken und den Fortschritt in Richtung vielseitigerer und zuverlässigerer Videogenerierungslösungen zu beschleunigen.