Stream-T1: 스트리밍 비디오 생성을 위한 테스트 타임 스케일링
Stream-T1: Test-Time Scaling for Streaming Video Generation
May 6, 2026
저자: Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao
cs.AI
초록
테스트 타임 스케일링(TTS)은 학습 비용 급증 없이 비디오 생성을 향상시킬 수 있는 유망한 방향을 제시하지만, 확산 모델 기반의 기존 테스트 타임 비디오 생성 방법은 과도한 후보 탐색 비용과 시간적 지도의 부재라는 한계를 지닙니다. 이러한 구조적 병목 현상을 해결하기 위해 우리는 스트리밍 비디오 생성에 주목합니다. 스트리밍 방식의 청크 단위 합성과 적은 디노이징 단계는 TTS에 본질적으로 적합하여 계산 오버헤드를 크게 줄이면서도 세밀한 시간적 제어를 가능하게 합니다. 이러한 통찰을 바탕으로 우리는 스트리밍 비디오 생성에 특화된 선도적인 종합 TTS 프레임워크인 Stream-T1을 제안합니다. 구체적으로 Stream-T1은 세 가지 구성 요소로 이루어집니다: (1) Stream-Scaled Noise Propagation은 이전 청크에서 검증된 고품질 노이즈를 활용하여 생성 중인 청크의 초기 잠재 노이즈를 능동적으로 정제함으로써 시간적 의존성을 효과적으로 구축하고 과거 가우시안 사전 분포를 활용하여 현재 생성 과정을 안내합니다; (2) Stream-Scaled Reward Pruning은 생성된 후보들을 종합적으로 평가하여 즉각적인 단기 평가와 슬라이딩 윈도우 기반의 장기 평가를 통합함으로써 지역적 공간 미학과 전역적 시간적 일관성 사이의 최적의 균형을 도모합니다; (3) Stream-Scaled Memory Sinking은 보상 피드백에 따라 KV-cache에서 제거된 컨텍스트를 서로 다른 업데이트 경로로 동적으로 라우팅하여, 이전에 생성된 시각 정보가 효과적으로 고정되고 이후의 비디오 스트림을 안내하도록 보장합니다. 5초 및 30초 종합 비디오 벤치마크에서 평가한 결과, Stream-T1은 시간적 일관성, 동작 부드러움, 프레임 수준의 시각적 품질을 모두 크게 향상시키며 뚜렷한 우수성을 입증했습니다.
English
While Test-Time Scaling (TTS) offers a promising direction to enhance video generation without the surging costs of training, current test-time video generation methods based on diffusion models suffer from exorbitant candidate exploration costs and lack temporal guidance. To address these structural bottlenecks, we propose shifting the focus to streaming video generation. We identify that its chunk-level synthesis and few denoising steps are intrinsically suited for TTS, significantly lowering computational overhead while enabling fine-grained temporal control. Driven by this insight, we introduced Stream-T1, a pioneering comprehensive TTS framework exclusively tailored for streaming video generation. Specifically, Stream-T1 is composed of three units: (1) Stream -Scaled Noise Propagation, which actively refines the initial latent noise of the generating chunk using historically proven, high-quality previous chunk noise, effectively establishes temporal dependency and utilizing the historical Gaussian prior to guide the current generation; (2) Stream -Scaled Reward Pruning, which comprehensively evaluates generated candidates to strike an optimal balance between local spatial aesthetics and global temporal coherence by integrating immediate short-term assessments with sliding-window-based long-term evaluations; (3) Stream-Scaled Memory Sinking, which dynamically routes the context evicted from KV-cache into distinct updating pathways guided by the reward feedback, ensuring that previously generated visual information effectively anchors and guides the subsequent video stream. Evaluated on both 5s and 30s comprehensive video benchmarks, Stream-T1 demonstrates profound superiority, significantly improving temporal consistency, motion smoothness, and frame-level visual quality.