ChatPaper.aiChatPaper

StreamDiT : Génération de vidéos à partir de texte en temps réel

StreamDiT: Real-Time Streaming Text-to-Video Generation

July 4, 2025
Auteurs: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI

Résumé

Récemment, des progrès significatifs ont été réalisés dans la génération de texte-à-vidéo (T2V) grâce à la mise à l'échelle de modèles de diffusion basés sur des transformateurs atteignant des milliards de paramètres, capables de produire des vidéos de haute qualité. Cependant, les modèles existants génèrent généralement uniquement de courts clips hors ligne, limitant ainsi leurs cas d'utilisation dans des applications interactives et en temps réel. Cet article aborde ces défis en proposant StreamDiT, un modèle de génération de vidéo en streaming. L'entraînement de StreamDiT repose sur l'appariement de flux en ajoutant un tampon mobile. Nous concevons un entraînement mixte avec différents schémas de partitionnement des images tamponnées pour améliorer à la fois la cohérence du contenu et la qualité visuelle. La modélisation de StreamDiT est basée sur adaLN DiT avec un encodage temporel variable et une attention par fenêtre. Pour mettre en pratique la méthode proposée, nous entraînons un modèle StreamDiT avec 4 milliards de paramètres. De plus, nous proposons une méthode de distillation en plusieurs étapes adaptée à StreamDiT. La distillation d'échantillonnage est effectuée dans chaque segment d'un schéma de partitionnement choisi. Après distillation, le nombre total d'évaluations de fonctions (NFEs) est réduit au nombre de segments dans un tampon. Enfin, notre modèle distillé atteint des performances en temps réel à 16 images par seconde sur un seul GPU, capable de générer des flux vidéo à une résolution de 512p. Nous évaluons notre méthode à la fois par des métriques quantitatives et par une évaluation humaine. Notre modèle permet des applications en temps réel, telles que la génération en streaming, la génération interactive et la vidéo-à-vidéo. Nous fournissons des résultats vidéo et d'autres exemples sur notre site web de projet : <a href="https://cumulo-autumn.github.io/StreamDiT/">cette URL https.</a>
English
Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>
PDF122July 8, 2025