StreamDiT: Генерация видео из текста в реальном времени с потоковой передачей
StreamDiT: Real-Time Streaming Text-to-Video Generation
July 4, 2025
Авторы: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI
Аннотация
В последнее время был достигнут значительный прогресс в генерации видео из текста (Text-to-Video, T2V) благодаря масштабированию трансформерных диффузионных моделей до миллиардов параметров, что позволяет создавать высококачественные видео. Однако существующие модели обычно генерируют только короткие ролики в оффлайн-режиме, что ограничивает их применение в интерактивных и реального времени приложениях. В данной статье мы предлагаем StreamDiT — модель для потоковой генерации видео, которая решает эти проблемы. Обучение StreamDiT основано на методе согласования потоков с добавлением движущегося буфера. Мы разработали смешанное обучение с различными схемами разделения буферизированных кадров для улучшения как согласованности содержания, так и визуального качества. Моделирование StreamDiT основано на adaLN DiT с изменяющимся временным встраиванием и оконным вниманием. Для практической реализации предложенного метода мы обучили модель StreamDiT с 4 миллиардами параметров. Кроме того, мы предлагаем метод многошаговой дистилляции, адаптированный для StreamDiT. Дистилляция выборки выполняется в каждом сегменте выбранной схемы разделения. После дистилляции общее количество вычислений функций (NFEs) сокращается до количества фрагментов в буфере. В итоге наша дистиллированная модель достигает производительности в реальном времени на уровне 16 кадров в секунду на одном GPU, что позволяет генерировать видеопотоки с разрешением 512p. Мы оцениваем наш метод с помощью как количественных метрик, так и экспертной оценки. Наша модель открывает возможности для приложений реального времени, таких как потоковая генерация, интерактивная генерация и видео-к-видео. Мы предоставляем видеорезультаты и дополнительные примеры на нашем проекте: <a href="https://cumulo-autumn.github.io/StreamDiT/">эта ссылка</a>.
English
Recently, great progress has been achieved in text-to-video (T2V) generation
by scaling transformer-based diffusion models to billions of parameters, which
can generate high-quality videos. However, existing models typically produce
only short clips offline, restricting their use cases in interactive and
real-time applications. This paper addresses these challenges by proposing
StreamDiT, a streaming video generation model. StreamDiT training is based on
flow matching by adding a moving buffer. We design mixed training with
different partitioning schemes of buffered frames to boost both content
consistency and visual quality. StreamDiT modeling is based on adaLN DiT with
varying time embedding and window attention. To practice the proposed method,
we train a StreamDiT model with 4B parameters. In addition, we propose a
multistep distillation method tailored for StreamDiT. Sampling distillation is
performed in each segment of a chosen partitioning scheme. After distillation,
the total number of function evaluations (NFEs) is reduced to the number of
chunks in a buffer. Finally, our distilled model reaches real-time performance
at 16 FPS on one GPU, which can generate video streams at 512p resolution. We
evaluate our method through both quantitative metrics and human evaluation. Our
model enables real-time applications, e.g. streaming generation, interactive
generation, and video-to-video. We provide video results and more examples in
our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this
https URL.</a>