ChatPaper.aiChatPaper

STIV: 확장 가능한 텍스트 및 이미지 조건부 비디오 생성

STIV: Scalable Text and Image Conditioned Video Generation

December 10, 2024
저자: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI

초록

비디오 생성 분야는 현저한 발전을 이루었지만, 강건하고 확장 가능한 모델의 개발을 안내할 수 있는 명확하고 체계적인 방법론이 여전히 필요합니다. 본 연구에서는 모델 아키텍처, 훈련 방법론 및 데이터 정제 전략의 상호작용을 체계적으로 탐구하는 포괄적인 연구를 제시하며, 이는 STIV라는 간단하고 확장 가능한 텍스트-이미지 조건부 비디오 생성 방법으로 귀결됩니다. 우리의 프레임워크는 이미지 조건을 확산 트랜스포머(Diffusion Transformer, DiT)에 프레임 교체를 통해 통합하고, 텍스트 조건을 이미지-텍스트 조건부 분류기 없는 가이드를 통해 통합합니다. 이 설계는 STIV가 텍스트-비디오(T2V) 및 텍스트-이미지-비디오(TI2V) 작업을 동시에 수행할 수 있도록 합니다. 게다가, STIV는 비디오 예측, 프레임 보간, 다중 뷰 생성, 장시간 비디오 생성 등 다양한 응용에 쉽게 확장할 수 있습니다. T2I, T2V 및 TI2V에 대한 포괄적인 제거 연구를 통해 STIV는 간단한 설계임에도 불구하고 강력한 성능을 보여줍니다. 512 해상도의 87억 모델은 VBench T2V에서 83.1의 성능을 달성하여 CogVideoX-5B, Pika, Kling 및 Gen-3과 같은 선도적인 오픈 및 폐쇄 소스 모델을 능가합니다. 동일한 크기의 모델은 또한 512 해상도에서 VBench I2V 작업에서 90.1의 최첨단 결과를 달성합니다. 첨단 비디오 생성 모델을 구축하기 위한 투명하고 확장 가능한 방법론을 제공함으로써, 미래 연구를 지원하고 더 다재다능하고 신뢰할 수 있는 비디오 생성 솔루션으로의 진보를 가속화하기를 목표로 합니다.
English
The field of video generation has made remarkable advancements, yet there remains a pressing need for a clear, systematic recipe that can guide the development of robust and scalable models. In this work, we present a comprehensive study that systematically explores the interplay of model architectures, training recipes, and data curation strategies, culminating in a simple and scalable text-image-conditioned video generation method, named STIV. Our framework integrates image condition into a Diffusion Transformer (DiT) through frame replacement, while incorporating text conditioning via a joint image-text conditional classifier-free guidance. This design enables STIV to perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks simultaneously. Additionally, STIV can be easily extended to various applications, such as video prediction, frame interpolation, multi-view generation, and long video generation, etc. With comprehensive ablation studies on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V, surpassing both leading open and closed-source models like CogVideoX-5B, Pika, Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and extensible recipe for building cutting-edge video generation models, we aim to empower future research and accelerate progress toward more versatile and reliable video generation solutions.

Summary

AI-Generated Summary

PDF742December 11, 2024