ChatPaper.aiChatPaper

Переопределение Временного Моделирования в Видео Диффузии: Векторизованный Шаг Времени Подход

Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

October 4, 2024
Авторы: Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel
cs.AI

Аннотация

Модели диффузии революционизировали генерацию изображений, и их расширение на генерацию видео показало перспективы. Однако текущие модели диффузии видео (VDM) полагаются на скалярную переменную временного шага, применяемую на уровне клипа, что ограничивает их способность моделировать сложные временные зависимости, необходимые для различных задач, таких как генерация изображения в видео. Для преодоления этого ограничения мы предлагаем модель диффузии видео, осознанную по кадрам (FVDM), которая вводит новую векторизованную переменную временного шага (VTV). В отличие от обычных VDM, наш подход позволяет каждому кадру следовать независимому расписанию шума, увеличивая способность модели захватывать мелкие временные зависимости. Гибкость FVDM продемонстрирована на различных задачах, включая стандартную генерацию видео, генерацию изображения в видео, интерполяцию видео и синтез длинного видео. С помощью разнообразных конфигураций VTV мы достигаем превосходного качества сгенерированных видео, преодолевая проблемы, такие как катастрофическое забывание во время тонкой настройки и ограниченная обобщаемость в методах нулевого обучения. Наши эмпирические оценки показывают, что FVDM превосходит современные методы по качеству генерации видео, а также преуспевает в расширенных задачах. Решая фундаментальные недостатки существующих VDM, FVDM устанавливает новый парадигму в синтезе видео, предлагая надежную структуру с значительными последствиями для генеративного моделирования и мультимедийных приложений.
English
Diffusion models have revolutionized image generation, and their extension to video generation has shown promise. However, current video diffusion models~(VDMs) rely on a scalar timestep variable applied at the clip level, which limits their ability to model complex temporal dependencies needed for various tasks like image-to-video generation. To address this limitation, we propose a frame-aware video diffusion model~(FVDM), which introduces a novel vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach allows each frame to follow an independent noise schedule, enhancing the model's capacity to capture fine-grained temporal dependencies. FVDM's flexibility is demonstrated across multiple tasks, including standard video generation, image-to-video generation, video interpolation, and long video synthesis. Through a diverse set of VTV configurations, we achieve superior quality in generated videos, overcoming challenges such as catastrophic forgetting during fine-tuning and limited generalizability in zero-shot methods.Our empirical evaluations show that FVDM outperforms state-of-the-art methods in video generation quality, while also excelling in extended tasks. By addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm in video synthesis, offering a robust framework with significant implications for generative modeling and multimedia applications.

Summary

AI-Generated Summary

PDF52November 16, 2024