HiStream: 중복 제거 스트리밍을 통한 효율적인 고해상도 비디오 생성
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
December 24, 2025
저자: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua
cs.AI
초록
고해상도 비디오 생성은 디지털 미디어와 영화 분야에서 중요하지만, 확산 모델의 2차 복잡도로 인해 계산적 병목 현상이 발생하여 실용적인 추론이 불가능한 실정입니다. 이를 해결하기 위해 우리는 세 가지 축에서 중복성을 체계적으로 줄이는 효율적인 자기회귀 프레임워크인 HiStream을 소개합니다: i) 공간 압축: 캐시된 특징을 활용하여 고해상도로 정제하기 전에 저해상도에서 노이즈 제거를 수행하고, ii) 시간적 압축: 고정 크기 앵커 캐시를 사용한 청크 단위 전략으로 안정적인 추론 속도를 보장하며, iii) 타임스텝 압축: 캐시 조건화된 후속 청크에 더 적은 수의 노이즈 제거 단계를 적용합니다. 1080p 벤치마크에서 우리의 주력 HiStream 모델(i+ii)은 Wan2.1 기준 대비 최대 76.2배 빠른 노이즈 제거 속도를 보이며 최신 수준의 시각적 품질을 달성하고 품질 저하는 미미했습니다. 더 빠른 변형인 HiStream+는 세 가지 최적화(i+ii+iii)를 모두 적용하여 기준 대비 107.5배의 가속을 이루며 속도와 품질 간 매력적인 균형을 제공함으로써 고해상도 비디오 생성을 실용적이고 확장 가능하게 만듭니다.
English
High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.