STIV: 확장 가능한 텍스트 및 이미지 조건부 비디오 생성STIV: Scalable Text and Image Conditioned Video Generation
비디오 생성 분야는 현저한 발전을 이루었지만, 강건하고 확장 가능한 모델의 개발을 안내할 수 있는 명확하고 체계적인 방법론이 여전히 필요합니다. 본 연구에서는 모델 아키텍처, 훈련 방법론 및 데이터 정제 전략의 상호작용을 체계적으로 탐구하는 포괄적인 연구를 제시하며, 이는 STIV라는 간단하고 확장 가능한 텍스트-이미지 조건부 비디오 생성 방법으로 귀결됩니다. 우리의 프레임워크는 이미지 조건을 확산 트랜스포머(Diffusion Transformer, DiT)에 프레임 교체를 통해 통합하고, 텍스트 조건을 이미지-텍스트 조건부 분류기 없는 가이드를 통해 통합합니다. 이 설계는 STIV가 텍스트-비디오(T2V) 및 텍스트-이미지-비디오(TI2V) 작업을 동시에 수행할 수 있도록 합니다. 게다가, STIV는 비디오 예측, 프레임 보간, 다중 뷰 생성, 장시간 비디오 생성 등 다양한 응용에 쉽게 확장할 수 있습니다. T2I, T2V 및 TI2V에 대한 포괄적인 제거 연구를 통해 STIV는 간단한 설계임에도 불구하고 강력한 성능을 보여줍니다. 512 해상도의 87억 모델은 VBench T2V에서 83.1의 성능을 달성하여 CogVideoX-5B, Pika, Kling 및 Gen-3과 같은 선도적인 오픈 및 폐쇄 소스 모델을 능가합니다. 동일한 크기의 모델은 또한 512 해상도에서 VBench I2V 작업에서 90.1의 최첨단 결과를 달성합니다. 첨단 비디오 생성 모델을 구축하기 위한 투명하고 확장 가능한 방법론을 제공함으로써, 미래 연구를 지원하고 더 다재다능하고 신뢰할 수 있는 비디오 생성 솔루션으로의 진보를 가속화하기를 목표로 합니다.