HiStream : Génération efficace de vidéos haute résolution par streaming à redondance éliminée
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
December 24, 2025
papers.authors: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua
cs.AI
papers.abstract
La génération de vidéos haute résolution, bien que cruciale pour les médias numériques et le cinéma, est limitée en calcul par la complexité quadratique des modèles de diffusion, rendant l'inférence pratique irréalisable. Pour résoudre ce problème, nous présentons HiStream, un cadre autoregressif efficace qui réduit systématiquement la redondance selon trois axes : i) Compression spatiale : débruitage à basse résolution avant un raffinement à haute résolution avec des caractéristiques mises en cache ; ii) Compression temporelle : une stratégie segment par segment avec un cache d'ancrage de taille fixe, garantissant une vitesse d'inférence stable ; et iii) Compression des pas de temps : application de moins d'étapes de débruitage aux segments suivants, conditionnés par le cache. Sur des benchmarks 1080p, notre modèle principal HiStream (i+ii) atteint une qualité visuelle de pointe tout en démontrant un débruitage jusqu'à 76,2 fois plus rapide que la baseline Wan2.1, avec une perte de qualité négligeable. Notre variante plus rapide, HiStream+, applique les trois optimisations (i+ii+iii), atteignant une accélération de 107,5 fois par rapport à la baseline, offrant un compromis convaincant entre vitesse et qualité, rendant ainsi la génération de vidéos haute résolution à la fois pratique et évolutive.
English
High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.