ChatPaper.aiChatPaper

StreamDiT: リアルタイムストリーミングテキスト・トゥ・ビデオ生成

StreamDiT: Real-Time Streaming Text-to-Video Generation

July 4, 2025
著者: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI

要旨

近年、テキストからビデオを生成する(T2V)技術において、Transformerベースの拡散モデルを数十億のパラメータにスケールアップすることで、高品質なビデオ生成が可能となり、大きな進展が見られました。しかし、既存のモデルは通常、短いクリップをオフラインで生成するのみで、インタラクティブおよびリアルタイムアプリケーションでの使用が制限されています。本論文では、これらの課題に対処するため、ストリーミングビデオ生成モデルであるStreamDiTを提案します。StreamDiTのトレーニングは、移動バッファを追加したフローマッチングに基づいています。バッファされたフレームの異なる分割スキームを用いた混合トレーニングを設計し、コンテンツの一貫性と視覚品質の両方を向上させます。StreamDiTのモデリングは、時間埋め込みとウィンドウアテンションを変化させたadaLN DiTに基づいています。提案手法を実践するため、4BパラメータのStreamDiTモデルをトレーニングしました。さらに、StreamDiTに特化した多段蒸留法を提案します。選択した分割スキームの各セグメントでサンプリング蒸留を行い、蒸留後、関数評価の総数(NFEs)はバッファ内のチャンク数に削減されます。最終的に、蒸留されたモデルは1GPUで16FPSのリアルタイム性能を達成し、512p解像度のビデオストリームを生成できます。定量指標と人間による評価を通じて本手法を評価しました。本モデルは、ストリーミング生成、インタラクティブ生成、ビデオツービデオなどのリアルタイムアプリケーションを可能にします。ビデオ結果とさらなる例はプロジェクトウェブサイトで提供しています:<a href="https://cumulo-autumn.github.io/StreamDiT/">このhttps URL。</a>
English
Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>
PDF111July 8, 2025