ChatPaper.aiChatPaper

StreamDiT: Real-time streaming tekst-naar-video generatie

StreamDiT: Real-Time Streaming Text-to-Video Generation

July 4, 2025
Auteurs: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI

Samenvatting

Onlangs is er grote vooruitgang geboekt in tekst-naar-video (T2V)-generatie door transformer-gebaseerde diffusiemodellen op te schalen naar miljarden parameters, wat het mogelijk maakt om hoogwaardige video's te genereren. Bestaande modellen produceren echter doorgaans alleen korte clips offline, wat hun toepassingsmogelijkheden in interactieve en real-time toepassingen beperkt. Dit artikel gaat deze uitdagingen aan door StreamDiT voor te stellen, een model voor het genereren van streaming video. De training van StreamDiT is gebaseerd op flow matching door een bewegende buffer toe te voegen. We ontwerpen een gemengde training met verschillende partitieschema's van gebufferde frames om zowel inhoudelijke consistentie als visuele kwaliteit te verbeteren. De modellering van StreamDiT is gebaseerd op adaLN DiT met variërende tijdembedding en vensterattention. Om de voorgestelde methode in de praktijk te brengen, trainen we een StreamDiT-model met 4B parameters. Daarnaast stellen we een multistep-distillatiemethode voor die is toegesneden op StreamDiT. Samplingdistillatie wordt uitgevoerd in elk segment van een gekozen partitieschema. Na distillatie wordt het totale aantal functie-evaluaties (NFEs) teruggebracht tot het aantal chunks in een buffer. Uiteindelijk bereikt ons gedistilleerde model real-time prestaties met 16 FPS op één GPU, wat het mogelijk maakt om videostreams te genereren met een resolutie van 512p. We evalueren onze methode aan de hand van zowel kwantitatieve metrieken als menselijke evaluatie. Ons model maakt real-time toepassingen mogelijk, zoals streaminggeneratie, interactieve generatie en video-naar-video. We bieden videoresultaten en meer voorbeelden op onze projectwebsite: <a href="https://cumulo-autumn.github.io/StreamDiT/">deze https URL.</a>
English
Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>
PDF315July 8, 2025