HiStream: Effiziente Hochauflösungsvideogenerierung durch redundanzreduziertes Streaming
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
December 24, 2025
papers.authors: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua
cs.AI
papers.abstract
Die Erzeugung hochauflösender Videos, obwohl entscheidend für digitale Medien und Film, wird durch die quadratische Komplexität von Diffusionsmodellen rechenseitig limitiert, was praktische Inferenz unmöglich macht. Um dies zu adressieren, führen wir HiStream ein, ein effizientes autoregressives Framework, das Redundanzen systematisch entlang dreier Achsen reduziert: i) *Spatiale Kompression*: Entrauschen bei niedriger Auflösung vor der Verfeinerung bei hoher Auflösung mit zwischengespeicherten Merkmalen; ii) *Temporale Kompression*: Eine Chunk-für-Chunk-Strategie mit einem Festgrößen-Anker-Cache, die eine stabile Inferenzgeschwindigkeit gewährleistet; und iii) *Zeitschritt-Kompression*: Anwendung weniger Entrauschungsschritte auf nachfolgende, cache-konditionierte Chunks. Auf 1080p-Benchmarks erreicht unser primäres HiStream-Modell (i+ii) state-of-the-art visuelle Qualität bei gleichzeitig bis zu 76,2-fach schnellerer Entrauschung im Vergleich zur Wan2.1-Basislinie und vernachlässigbarem Qualitätsverlust. Unsere schnellere Variante, HiStream+, wendet alle drei Optimierungen an (i+ii+iii), erreicht eine 107,5-fache Beschleunigung gegenüber der Basislinie und bietet eine überzeugende Balance zwischen Geschwindigkeit und Qualität, wodurch die Erzeugung hochauflösender Videos sowohl praktikabel als auch skalierbar wird.
English
High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.