FancyVideo: К динамичной и последовательной генерации видео с использованием текстового руководства между кадрами.
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
Авторы: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
Аннотация
Синтез видеороликов, насыщенных движением и временно последовательных, остается вызовом в искусственном интеллекте, особенно при работе с продолжительными отрезками времени. Существующие модели текст-к-видео (T2V) обычно используют пространственное кросс-внимание для управления текстом, что позволяет направлять различные генерации кадров без специфического текстового руководства для каждого кадра. Таким образом, способность модели понимать временную логику, содержащуюся в подсказках, и создавать видеоролики с согласованным движением ограничена. Для преодоления этого ограничения мы представляем FancyVideo, инновационный генератор видео, который улучшает существующий механизм управления текстом с помощью хорошо спроектированного Модуля Кросс-внимания между кадрами (CTGM). Конкретно, CTGM включает Инжектор Временной Информации (TII), Уточнитель Временной Связи (TAR) и Усилитель Временных Характеристик (TFB) в начале, середине и конце кросс-внимания соответственно, чтобы достичь специфического текстового руководства для каждого кадра. Во-первых, TII внедряет информацию, специфичную для кадра, из латентных характеристик в текстовые условия, тем самым получая кросс-кадровые текстовые условия. Затем TAR улучшает матрицу корреляции между кросс-кадровыми текстовыми условиями и латентными характеристиками вдоль временного измерения. Наконец, TFB усиливает временную последовательность латентных характеристик. Обширные эксперименты, включающие как количественные, так и качественные оценки, демонстрируют эффективность FancyVideo. Наш подход достигает передовых результатов генерации T2V на бенчмарке EvalCrafter и способствует синтезу динамичных и последовательных видеороликов. Результаты видеопоказа доступны по ссылке https://fancyvideo.github.io/, и мы сделаем наш код и веса модели общедоступными.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.Summary
AI-Generated Summary