МТИВ: Масштабируемая генерация видео на основе текста и изображенийSTIV: Scalable Text and Image Conditioned Video Generation
Область генерации видео сделала замечательные прорывы, однако остается настоятельная необходимость в четком и систематическом рецепте, который мог бы направлять разработку надежных и масштабируемых моделей. В данной работе мы представляем всестороннее исследование, которое систематически исследует взаимодействие архитектур моделей, рецептов обучения и стратегий курирования данных, что приводит к простому и масштабируемому методу генерации видео с условием текста и изображения, названному STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадра, в то время как включает текстовое условие через совместный классификатор-бесплатное руководство по изображению и тексту. Этот дизайн позволяет STIV выполнять одновременно задачи от текста к видео (T2V) и от текста и изображения к видео (TI2V). Кроме того, STIV может легко расширяться до различных приложений, таких как предсказание видео, интерполяция кадров, генерация множества видов и генерация длинных видео и т. д. Проведя всесторонние исследования по абляции на T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на свой простой дизайн. Модель 8.7B с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Та же модель того же размера также достигает передового результата 90.1 на задаче VBench I2V при разрешении 512. Предоставляя прозрачный и расширяемый рецепт для создания передовых моделей генерации видео, мы стремимся усилить будущие исследования и ускорить прогресс к более универсальным и надежным решениям генерации видео.