HiStream: Generación Eficiente de Vídeo de Alta Resolución mediante Transmisión con Eliminación de Redundancia
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
December 24, 2025
Autores: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua
cs.AI
Resumen
La generación de vídeo de alta resolución, aunque crucial para los medios digitales y el cine, se ve limitada computacionalmente por la complejidad cuadrática de los modelos de difusión, haciendo inviable la inferencia práctica. Para abordar este problema, presentamos HiStream, un marco autoregresivo eficiente que reduce sistemáticamente la redundancia en tres ejes: i) Compresión Espacial: eliminación de ruido a baja resolución antes de refinar a alta resolución con características en caché; ii) Compresión Temporal: una estrategia fragmento a fragmento con una caché de anclaje de tamaño fijo, garantizando una velocidad de inferencia estable; y iii) Compresión de Paso Temporal: aplicación de menos pasos de eliminación de ruido a los fragmentos subsiguientes condicionados por la caché. En benchmarks de 1080p, nuestro modelo principal HiStream (i+ii) logra una calidad visual de vanguardia mientras demuestra una eliminación de ruido hasta 76.2 veces más rápida en comparación con la línea base Wan2.1, con una pérdida de calidad insignificante. Nuestra variante más rápida, HiStream+, aplica las tres optimizaciones (i+ii+iii), logrando una aceleración de 107.5x sobre la línea base, ofreciendo un equilibrio atractivo entre velocidad y calidad, haciendo así que la generación de vídeo de alta resolución sea tanto práctica como escalable.
English
High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.