ChatPaper.aiChatPaper

Lumiere : Un modèle de diffusion espace-temps pour la génération de vidéos

Lumiere: A Space-Time Diffusion Model for Video Generation

January 23, 2024
Auteurs: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI

Résumé

Nous présentons Lumiere -- un modèle de diffusion texte-à-vidéo conçu pour synthétiser des vidéos représentant des mouvements réalistes, diversifiés et cohérents -- un défi majeur dans la synthèse vidéo. Pour ce faire, nous introduisons une architecture Space-Time U-Net qui génère l'intégralité de la durée temporelle de la vidéo en une seule passe dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d'une super-résolution temporelle -- une approche qui rend intrinsèquement difficile l'obtention d'une cohérence temporelle globale. En déployant un sous-échantillonnage et un sur-échantillonnage à la fois spatial et (surtout) temporel, et en exploitant un modèle de diffusion texte-à-image pré-entraîné, notre modèle apprend à générer directement une vidéo à pleine fréquence d'images et à basse résolution en la traitant à plusieurs échelles spatio-temporelles. Nous démontrons des résultats de pointe en génération texte-à-vidéo et montrons que notre conception facilite aisément une large gamme de tâches de création de contenu et d'applications de montage vidéo, y compris la génération image-à-vidéo, l'inpainting vidéo et la génération stylisée.
English
We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
PDF8610December 15, 2024