StreamDiT: Real-time streaming tekst-naar-video generatie
StreamDiT: Real-Time Streaming Text-to-Video Generation
July 4, 2025
Auteurs: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI
Samenvatting
Onlangs is er grote vooruitgang geboekt in tekst-naar-video (T2V)-generatie door transformer-gebaseerde diffusiemodellen op te schalen naar miljarden parameters, wat het mogelijk maakt om hoogwaardige video's te genereren. Bestaande modellen produceren echter doorgaans alleen korte clips offline, wat hun toepassingsmogelijkheden in interactieve en real-time toepassingen beperkt. Dit artikel gaat deze uitdagingen aan door StreamDiT voor te stellen, een model voor het genereren van streaming video. De training van StreamDiT is gebaseerd op flow matching door een bewegende buffer toe te voegen. We ontwerpen een gemengde training met verschillende partitieschema's van gebufferde frames om zowel inhoudelijke consistentie als visuele kwaliteit te verbeteren. De modellering van StreamDiT is gebaseerd op adaLN DiT met variërende tijdembedding en vensterattention. Om de voorgestelde methode in de praktijk te brengen, trainen we een StreamDiT-model met 4B parameters. Daarnaast stellen we een multistep-distillatiemethode voor die is toegesneden op StreamDiT. Samplingdistillatie wordt uitgevoerd in elk segment van een gekozen partitieschema. Na distillatie wordt het totale aantal functie-evaluaties (NFEs) teruggebracht tot het aantal chunks in een buffer. Uiteindelijk bereikt ons gedistilleerde model real-time prestaties met 16 FPS op één GPU, wat het mogelijk maakt om videostreams te genereren met een resolutie van 512p. We evalueren onze methode aan de hand van zowel kwantitatieve metrieken als menselijke evaluatie. Ons model maakt real-time toepassingen mogelijk, zoals streaminggeneratie, interactieve generatie en video-naar-video. We bieden videoresultaten en meer voorbeelden op onze projectwebsite: <a href="https://cumulo-autumn.github.io/StreamDiT/">deze https URL.</a>
English
Recently, great progress has been achieved in text-to-video (T2V) generation
by scaling transformer-based diffusion models to billions of parameters, which
can generate high-quality videos. However, existing models typically produce
only short clips offline, restricting their use cases in interactive and
real-time applications. This paper addresses these challenges by proposing
StreamDiT, a streaming video generation model. StreamDiT training is based on
flow matching by adding a moving buffer. We design mixed training with
different partitioning schemes of buffered frames to boost both content
consistency and visual quality. StreamDiT modeling is based on adaLN DiT with
varying time embedding and window attention. To practice the proposed method,
we train a StreamDiT model with 4B parameters. In addition, we propose a
multistep distillation method tailored for StreamDiT. Sampling distillation is
performed in each segment of a chosen partitioning scheme. After distillation,
the total number of function evaluations (NFEs) is reduced to the number of
chunks in a buffer. Finally, our distilled model reaches real-time performance
at 16 FPS on one GPU, which can generate video streams at 512p resolution. We
evaluate our method through both quantitative metrics and human evaluation. Our
model enables real-time applications, e.g. streaming generation, interactive
generation, and video-to-video. We provide video results and more examples in
our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this
https URL.</a>