StreamDiT: Geração de Texto para Vídeo em Tempo Real com Transmissão Contínua

Resumo

Recentemente, grandes avanços foram alcançados na geração de texto para vídeo (T2V) ao escalar modelos de difusão baseados em transformadores para bilhões de parâmetros, capazes de gerar vídeos de alta qualidade. No entanto, os modelos existentes normalmente produzem apenas clipes curtos offline, limitando seus casos de uso em aplicações interativas e em tempo real. Este artigo aborda esses desafios propondo o StreamDiT, um modelo de geração de vídeo em streaming. O treinamento do StreamDiT é baseado em correspondência de fluxo, adicionando um buffer móvel. Projetamos um treinamento misto com diferentes esquemas de particionamento de quadros em buffer para melhorar tanto a consistência do conteúdo quanto a qualidade visual. A modelagem do StreamDiT é baseada em adaLN DiT com incorporação de tempo variável e atenção por janela. Para praticar o método proposto, treinamos um modelo StreamDiT com 4 bilhões de parâmetros. Além disso, propomos um método de destilação em múltiplos passos adaptado para o StreamDiT. A destilação de amostragem é realizada em cada segmento de um esquema de particionamento escolhido. Após a destilação, o número total de avaliações de função (NFEs) é reduzido ao número de blocos em um buffer. Por fim, nosso modelo destilado atinge desempenho em tempo real a 16 FPS em uma GPU, capaz de gerar fluxos de vídeo em resolução 512p. Avaliamos nosso método por meio de métricas quantitativas e avaliação humana. Nosso modelo possibilita aplicações em tempo real, como geração em streaming, geração interativa e vídeo para vídeo. Fornecemos resultados em vídeo e mais exemplos em nosso site do projeto: <a href="https://cumulo-autumn.github.io/StreamDiT/">este link</a>.

English

Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>

StreamDiT: Geração de Texto para Vídeo em Tempo Real com Transmissão Contínua

StreamDiT: Real-Time Streaming Text-to-Video Generation

Resumo

Support