HiStream: Efficiënte Generatie van Hoogresolutievideo's via Redundantievrije Streaming
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
December 24, 2025
Auteurs: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua
cs.AI
Samenvatting
Hoogresolutie videogeneratie, hoewel cruciaal voor digitale media en film, wordt computationeel beperkt door de kwadratische complexiteit van diffusiemodellen, wat praktische inferentie onhaalbaar maakt. Om dit aan te pakken, introduceren we HiStream, een efficiënt autoregressief raamwerk dat redundantie systematisch reduceert langs drie assen: i) Ruimtelijke compressie: denoising op lage resolutie gevolgd door verfijning op hoge resolutie met gecachete features; ii) Temporele compressie: een chunk-voor-chunk strategie met een cache van vaste grootte voor ankers, wat een stabiele inferentiesnelheid garandeert; en iii) Timestep-compressie: het toepassen van minder denoising-stappen op opeenvolgende, door de cache geconditioneerde chunks. Op 1080p benchmarks behaalt ons primaire HiStream-model (i+ii) state-of-the-art visuele kwaliteit en demonstreert het tot 76,2x snellere denoising vergeleken met de Wan2.1-basislijn, met verwaarloosbaar kwaliteitsverlies. Onze snellere variant, HiStream+, past alle drie optimalisaties toe (i+ii+iii), bereikt een 107,5x versnelling ten opzichte van de basislijn en biedt een overtuigende wisselwerking tussen snelheid en kwaliteit, waardoor hoogresolutie videogeneratie zowel praktisch als schaalbaar wordt.
English
High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.