STIV: Schaalbare Video Generatie Geconditioneerd door Tekst en Afbeeldingen
STIV: Scalable Text and Image Conditioned Video Generation
December 10, 2024
Auteurs: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI
Samenvatting
Het domein van videogeneratie heeft opmerkelijke vooruitgang geboekt, maar er blijft een dringende behoefte aan een duidelijk, systematisch recept dat de ontwikkeling van robuuste en schaalbare modellen kan sturen. In dit werk presenteren we een uitgebreide studie die systematisch de wisselwerking van modelarchitecturen, trainingsrecepten en datacuratiestrategieën verkent, resulterend in een eenvoudige en schaalbare methode voor het genereren van video's onder voorwaarde van tekst en afbeelding, genaamd STIV. Ons raamwerk integreert afbeeldingsconditie in een Diffusion Transformer (DiT) via framevervanging, terwijl het tekstconditie opneemt via een gezamenlijke afbeelding-tekst conditionele classifier-vrije begeleiding. Deze ontwerp maakt het mogelijk dat STIV zowel tekst-naar-video (T2V) als tekst-afbeelding-naar-video (TI2V) taken gelijktijdig uitvoert. Bovendien kan STIV eenvoudig worden uitgebreid naar verschillende toepassingen, zoals videovoorspelling, frame-interpolatie, generatie van meerdere aanzichten en lange videogeneratie, enzovoort. Met uitgebreide ablatiestudies op T2I, T2V en TI2V toont STIV sterke prestaties, ondanks zijn eenvoudige ontwerp. Een 8,7B-model met een resolutie van 512 behaalt 83,1 op VBench T2V, wat zowel toonaangevende open als gesloten modellen zoals CogVideoX-5B, Pika, Kling en Gen-3 overtreft. Hetzelfde formaat model behaalt ook een state-of-the-art resultaat van 90,1 op de VBench I2V-taak bij een resolutie van 512. Door een transparant en uitbreidbaar recept te bieden voor het bouwen van geavanceerde videogeneratiemodellen, streven we ernaar om toekomstig onderzoek te versterken en vooruitgang te versnellen naar meer veelzijdige en betrouwbare oplossingen voor videogeneratie.
English
The field of video generation has made remarkable advancements, yet there
remains a pressing need for a clear, systematic recipe that can guide the
development of robust and scalable models. In this work, we present a
comprehensive study that systematically explores the interplay of model
architectures, training recipes, and data curation strategies, culminating in a
simple and scalable text-image-conditioned video generation method, named STIV.
Our framework integrates image condition into a Diffusion Transformer (DiT)
through frame replacement, while incorporating text conditioning via a joint
image-text conditional classifier-free guidance. This design enables STIV to
perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks
simultaneously. Additionally, STIV can be easily extended to various
applications, such as video prediction, frame interpolation, multi-view
generation, and long video generation, etc. With comprehensive ablation studies
on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple
design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V,
surpassing both leading open and closed-source models like CogVideoX-5B, Pika,
Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result
of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and
extensible recipe for building cutting-edge video generation models, we aim to
empower future research and accelerate progress toward more versatile and
reliable video generation solutions.