StreamDiT: Generazione di Video da Testo in Tempo Reale con Streaming
StreamDiT: Real-Time Streaming Text-to-Video Generation
July 4, 2025
Autori: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI
Abstract
Recentemente, sono stati compiuti notevoli progressi nella generazione di video da testo (T2V) grazie al ridimensionamento di modelli di diffusione basati su transformer a miliardi di parametri, in grado di produrre video di alta qualità. Tuttavia, i modelli esistenti generano tipicamente solo brevi clip offline, limitando il loro utilizzo in applicazioni interattive e in tempo reale. Questo articolo affronta queste sfide proponendo StreamDiT, un modello di generazione di video in streaming. L'addestramento di StreamDiT si basa sul flow matching con l'aggiunta di un buffer in movimento. Progettiamo un addestramento misto con diversi schemi di partizionamento dei frame bufferizzati per migliorare sia la coerenza del contenuto che la qualità visiva. La modellazione di StreamDiT si basa su adaLN DiT con incorporamento temporale variabile e attenzione a finestra. Per mettere in pratica il metodo proposto, addestriamo un modello StreamDiT con 4 miliardi di parametri. Inoltre, proponiamo un metodo di distillazione multistep specifico per StreamDiT. La distillazione del campionamento viene eseguita in ogni segmento di uno schema di partizionamento scelto. Dopo la distillazione, il numero totale di valutazioni di funzione (NFE) viene ridotto al numero di blocchi in un buffer. Infine, il nostro modello distillato raggiunge prestazioni in tempo reale a 16 FPS su una GPU, generando flussi video a risoluzione 512p. Valutiamo il nostro metodo sia attraverso metriche quantitative che valutazioni umane. Il nostro modello abilita applicazioni in tempo reale, come la generazione in streaming, la generazione interattiva e il video-to-video. Forniamo risultati video e ulteriori esempi sul sito web del nostro progetto: <a href="https://cumulo-autumn.github.io/StreamDiT/">questo URL https.</a>
English
Recently, great progress has been achieved in text-to-video (T2V) generation
by scaling transformer-based diffusion models to billions of parameters, which
can generate high-quality videos. However, existing models typically produce
only short clips offline, restricting their use cases in interactive and
real-time applications. This paper addresses these challenges by proposing
StreamDiT, a streaming video generation model. StreamDiT training is based on
flow matching by adding a moving buffer. We design mixed training with
different partitioning schemes of buffered frames to boost both content
consistency and visual quality. StreamDiT modeling is based on adaLN DiT with
varying time embedding and window attention. To practice the proposed method,
we train a StreamDiT model with 4B parameters. In addition, we propose a
multistep distillation method tailored for StreamDiT. Sampling distillation is
performed in each segment of a chosen partitioning scheme. After distillation,
the total number of function evaluations (NFEs) is reduced to the number of
chunks in a buffer. Finally, our distilled model reaches real-time performance
at 16 FPS on one GPU, which can generate video streams at 512p resolution. We
evaluate our method through both quantitative metrics and human evaluation. Our
model enables real-time applications, e.g. streaming generation, interactive
generation, and video-to-video. We provide video results and more examples in
our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this
https URL.</a>