StreamDiT: Generación de Texto a Video en Tiempo Real con Transmisión Continua
StreamDiT: Real-Time Streaming Text-to-Video Generation
July 4, 2025
Autores: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI
Resumen
Recientemente, se han logrado grandes avances en la generación de texto a video (T2V) mediante la escalada de modelos de difusión basados en transformadores a miles de millones de parámetros, lo que permite generar videos de alta calidad. Sin embargo, los modelos existentes suelen producir únicamente clips cortos de manera offline, lo que limita su uso en aplicaciones interactivas y en tiempo real. Este artículo aborda estos desafíos proponiendo StreamDiT, un modelo de generación de video en streaming. El entrenamiento de StreamDiT se basa en el emparejamiento de flujos mediante la adición de un búfer móvil. Diseñamos un entrenamiento mixto con diferentes esquemas de partición de fotogramas en el búfer para mejorar tanto la consistencia del contenido como la calidad visual. La modelización de StreamDiT se basa en adaLN DiT con incrustaciones de tiempo variables y atención por ventanas. Para poner en práctica el método propuesto, entrenamos un modelo StreamDiT con 4 mil millones de parámetros. Además, proponemos un método de destilación multietapa adaptado para StreamDiT. La destilación de muestreo se realiza en cada segmento de un esquema de partición seleccionado. Tras la destilación, el número total de evaluaciones de funciones (NFEs) se reduce al número de fragmentos en el búfer. Finalmente, nuestro modelo destilado alcanza un rendimiento en tiempo real a 16 FPS en una GPU, capaz de generar flujos de video con resolución 512p. Evaluamos nuestro método mediante métricas cuantitativas y evaluación humana. Nuestro modelo habilita aplicaciones en tiempo real, como generación en streaming, generación interactiva y video a video. Proporcionamos resultados de video y más ejemplos en nuestro sitio web del proyecto: <a href="https://cumulo-autumn.github.io/StreamDiT/">este enlace</a>.
English
Recently, great progress has been achieved in text-to-video (T2V) generation
by scaling transformer-based diffusion models to billions of parameters, which
can generate high-quality videos. However, existing models typically produce
only short clips offline, restricting their use cases in interactive and
real-time applications. This paper addresses these challenges by proposing
StreamDiT, a streaming video generation model. StreamDiT training is based on
flow matching by adding a moving buffer. We design mixed training with
different partitioning schemes of buffered frames to boost both content
consistency and visual quality. StreamDiT modeling is based on adaLN DiT with
varying time embedding and window attention. To practice the proposed method,
we train a StreamDiT model with 4B parameters. In addition, we propose a
multistep distillation method tailored for StreamDiT. Sampling distillation is
performed in each segment of a chosen partitioning scheme. After distillation,
the total number of function evaluations (NFEs) is reduced to the number of
chunks in a buffer. Finally, our distilled model reaches real-time performance
at 16 FPS on one GPU, which can generate video streams at 512p resolution. We
evaluate our method through both quantitative metrics and human evaluation. Our
model enables real-time applications, e.g. streaming generation, interactive
generation, and video-to-video. We provide video results and more examples in
our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this
https URL.</a>