ChatPaper.aiChatPaper

StreamDiT: Echtzeit-Streaming von Text-zu-Video-Generierung

StreamDiT: Real-Time Streaming Text-to-Video Generation

July 4, 2025
Autoren: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI

Zusammenfassung

In jüngster Zeit wurden bedeutende Fortschritte in der Text-zu-Video (T2V)-Generierung erzielt, indem transformer-basierte Diffusionsmodelle auf Milliarden von Parametern skaliert wurden, die hochwertige Videos erzeugen können. Allerdings produzieren bestehende Modelle typischerweise nur kurze Clips offline, was ihre Anwendungsfälle in interaktiven und Echtzeitanwendungen einschränkt. Diese Arbeit geht auf diese Herausforderungen ein, indem sie StreamDiT, ein Streaming-Videogenerierungsmodell, vorschlägt. Das Training von StreamDiT basiert auf Flow Matching durch Hinzufügen eines beweglichen Puffers. Wir entwerfen ein gemischtes Training mit verschiedenen Partitionierungsschemata von gepufferten Frames, um sowohl die Inhaltskonsistenz als auch die visuelle Qualität zu steigern. Die Modellierung von StreamDiT basiert auf adaLN DiT mit variierender Zeit-Einbettung und Fenster-Aufmerksamkeit. Um die vorgeschlagene Methode zu praktizieren, trainieren wir ein StreamDiT-Modell mit 4B Parametern. Zusätzlich schlagen wir eine mehrstufige Destillationsmethode vor, die speziell für StreamDiT entwickelt wurde. Die Sampling-Destillation wird in jedem Segment eines gewählten Partitionierungsschemas durchgeführt. Nach der Destillation wird die Gesamtzahl der Funktionsauswertungen (NFEs) auf die Anzahl der Chunks in einem Puffer reduziert. Schließlich erreicht unser destilliertes Modell Echtzeitleistung mit 16 FPS auf einer GPU, die Videostreams mit 512p-Auflösung erzeugen kann. Wir bewerten unsere Methode sowohl durch quantitative Metriken als auch durch menschliche Bewertungen. Unser Modell ermöglicht Echtzeitanwendungen, z.B. Streaming-Generierung, interaktive Generierung und Video-zu-Video. Wir stellen Videoergebnisse und weitere Beispiele auf unserer Projektwebsite bereit: <a href="https://cumulo-autumn.github.io/StreamDiT/">dieser https URL.</a>
English
Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>
PDF122July 8, 2025