Lumiere: Пространственно-временная диффузионная модель для генерации видео
Lumiere: A Space-Time Diffusion Model for Video Generation
January 23, 2024
Авторы: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI
Аннотация
Мы представляем Lumiere — диффузионную модель для преобразования текста в видео, предназначенную для синтеза видеороликов, которые демонстрируют реалистичное, разнообразное и согласованное движение — ключевой вызов в области синтеза видео. Для этого мы предлагаем архитектуру Space-Time U-Net, которая генерирует весь временной отрезок видео за один проход через модель. Это отличается от существующих видео-моделей, которые сначала синтезируют удаленные ключевые кадры, а затем применяют временное супер-разрешение — подход, который затрудняет достижение глобальной временной согласованности. Используя как пространственную, так и (что особенно важно) временную понижающую и повышающую дискретизацию, а также задействуя предварительно обученную диффузионную модель для преобразования текста в изображение, наша модель учится напрямую генерировать видео с полной частотой кадров и низким разрешением, обрабатывая его на нескольких пространственно-временных масштабах. Мы демонстрируем передовые результаты в генерации видео из текста и показываем, что наш дизайн легко адаптируется для широкого спектра задач создания контента и приложений для редактирования видео, включая преобразование изображений в видео, восстановление видео и стилизованную генерацию.
English
We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.