Lumiere: Een ruimte-tijd diffusiemodel voor videogeneratie
Lumiere: A Space-Time Diffusion Model for Video Generation
January 23, 2024
Auteurs: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI
Samenvatting
We introduceren Lumiere -- een tekst-naar-video diffusiemodel ontworpen voor het synthetiseren van video's die realistische, diverse en coherente bewegingen weergeven -- een cruciale uitdaging in videosynthese. Hiertoe introduceren we een Space-Time U-Net architectuur die de volledige tijdsduur van de video in één keer genereert, via een enkele doorgang in het model. Dit staat in contrast met bestaande videomodellen die verre keyframes synthetiseren, gevolgd door temporele superresolutie -- een aanpak die inherent maakt dat globale temporele consistentie moeilijk te bereiken is. Door zowel ruimtelijke als (belangrijk) temporele down- en upsampling te implementeren en gebruik te maken van een voorgetraind tekst-naar-beeld diffusiemodel, leert ons model direct een volledige framerate, lage-resolutie video te genereren door deze op meerdere ruimte-tijd schalen te verwerken. We demonstreren state-of-the-art tekst-naar-video generatieresultaten, en laten zien dat ons ontwerp een breed scala aan contentcreatietaken en videobewerkingsapplicaties gemakkelijk mogelijk maakt, waaronder beeld-naar-video, video-inpainting en gestileerde generatie.
English
We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.