ChatPaper.aiChatPaper

StreamDiT: 실시간 스트리밍 텍스트-투-비디오 생성

StreamDiT: Real-Time Streaming Text-to-Video Generation

July 4, 2025
저자: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao
cs.AI

초록

최근, 수십억 개의 파라미터로 확장된 트랜스포머 기반의 확산 모델을 통해 텍스트-투-비디오(T2V) 생성 분야에서 큰 진전이 이루어졌으며, 이를 통해 고품질의 비디오를 생성할 수 있게 되었습니다. 그러나 기존 모델들은 일반적으로 오프라인에서 짧은 클립만을 생성할 수 있어, 상호작용적이고 실시간 애플리케이션에서의 사용이 제한적이었습니다. 본 논문은 이러한 문제를 해결하기 위해 스트리밍 비디오 생성 모델인 StreamDiT를 제안합니다. StreamDiT의 학습은 이동 버퍼를 추가한 흐름 매칭(flow matching)을 기반으로 합니다. 우리는 버퍼링된 프레임의 다양한 분할 방식을 혼합하여 학습을 설계함으로써 콘텐츠 일관성과 시각적 품질을 모두 향상시켰습니다. StreamDiT 모델링은 다양한 시간 임베딩과 윈도우 어텐션을 적용한 adaLN DiT를 기반으로 합니다. 제안된 방법을 실험하기 위해, 우리는 4B 파라미터를 가진 StreamDiT 모델을 학습시켰습니다. 또한, StreamDiT에 적합한 다단계 증류 방법을 제안합니다. 증류는 선택된 분할 방식의 각 세그먼트에서 샘플링 증류를 수행하며, 증류 후에는 전체 함수 평가 횟수(NFEs)가 버퍼의 청크 수로 줄어듭니다. 최종적으로, 우리의 증류된 모델은 단일 GPU에서 16 FPS의 실시간 성능을 달성하며, 512p 해상도의 비디오 스트림을 생성할 수 있습니다. 우리는 제안된 방법을 정량적 지표와 인간 평가를 통해 평가했습니다. 우리의 모델은 스트리밍 생성, 상호작용적 생성, 비디오-투-비디오와 같은 실시간 애플리케이션을 가능하게 합니다. 비디오 결과와 더 많은 예시는 프로젝트 웹사이트(<a href="https://cumulo-autumn.github.io/StreamDiT/">이 https URL</a>)에서 확인할 수 있습니다.
English
Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>
PDF121July 8, 2025