StreamDiT: Geração de Texto para Vídeo em Tempo Real com Transmissão Contínua
StreamDiT: Real-Time Streaming Text-to-Video Generation
July 4, 2025
Autores: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI
Resumo
Recentemente, grandes avanços foram alcançados na geração de texto para vídeo (T2V) ao escalar modelos de difusão baseados em transformadores para bilhões de parâmetros, capazes de gerar vídeos de alta qualidade. No entanto, os modelos existentes normalmente produzem apenas clipes curtos offline, limitando seus casos de uso em aplicações interativas e em tempo real. Este artigo aborda esses desafios propondo o StreamDiT, um modelo de geração de vídeo em streaming. O treinamento do StreamDiT é baseado em correspondência de fluxo, adicionando um buffer móvel. Projetamos um treinamento misto com diferentes esquemas de particionamento de quadros em buffer para melhorar tanto a consistência do conteúdo quanto a qualidade visual. A modelagem do StreamDiT é baseada em adaLN DiT com incorporação de tempo variável e atenção por janela. Para praticar o método proposto, treinamos um modelo StreamDiT com 4 bilhões de parâmetros. Além disso, propomos um método de destilação em múltiplos passos adaptado para o StreamDiT. A destilação de amostragem é realizada em cada segmento de um esquema de particionamento escolhido. Após a destilação, o número total de avaliações de função (NFEs) é reduzido ao número de blocos em um buffer. Por fim, nosso modelo destilado atinge desempenho em tempo real a 16 FPS em uma GPU, capaz de gerar fluxos de vídeo em resolução 512p. Avaliamos nosso método por meio de métricas quantitativas e avaliação humana. Nosso modelo possibilita aplicações em tempo real, como geração em streaming, geração interativa e vídeo para vídeo. Fornecemos resultados em vídeo e mais exemplos em nosso site do projeto: <a href="https://cumulo-autumn.github.io/StreamDiT/">este link</a>.
English
Recently, great progress has been achieved in text-to-video (T2V) generation
by scaling transformer-based diffusion models to billions of parameters, which
can generate high-quality videos. However, existing models typically produce
only short clips offline, restricting their use cases in interactive and
real-time applications. This paper addresses these challenges by proposing
StreamDiT, a streaming video generation model. StreamDiT training is based on
flow matching by adding a moving buffer. We design mixed training with
different partitioning schemes of buffered frames to boost both content
consistency and visual quality. StreamDiT modeling is based on adaLN DiT with
varying time embedding and window attention. To practice the proposed method,
we train a StreamDiT model with 4B parameters. In addition, we propose a
multistep distillation method tailored for StreamDiT. Sampling distillation is
performed in each segment of a chosen partitioning scheme. After distillation,
the total number of function evaluations (NFEs) is reduced to the number of
chunks in a buffer. Finally, our distilled model reaches real-time performance
at 16 FPS on one GPU, which can generate video streams at 512p resolution. We
evaluate our method through both quantitative metrics and human evaluation. Our
model enables real-time applications, e.g. streaming generation, interactive
generation, and video-to-video. We provide video results and more examples in
our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this
https URL.</a>