HiStream: Generazione Efficiente di Video ad Alta Risoluzione tramite Streaming a Ridotta Ridondanza

Abstract

La generazione di video ad alta risoluzione, sebbene cruciale per i media digitali e il cinema, è limitata computazionalmente dalla complessità quadratica dei modelli di diffusione, rendendo l'inferenza pratica non fattibile. Per affrontare questo problema, introduciamo HiStream, un framework autoregressivo efficiente che riduce sistematicamente la ridondanza lungo tre assi: i) Compressione Spaziale: denoising a bassa risoluzione prima di affinare l'immagine ad alta risoluzione con feature memorizzate nella cache; ii) Compressione Temporale: una strategia chunk-by-chunk con una cache di ancore di dimensione fissa, che garantisce una velocità di inferenza stabile; e iii) Compressione degli Intervalli Temporali (Timestep): applicazione di meno passi di denoising ai chunk successivi, condizionati dalla cache. Su benchmark 1080p, il nostro modello HiStream primario (i+ii) raggiunge una qualità visiva allo stato dell'arte dimostrando un denoising fino a 76,2 volte più veloce rispetto al baseline Wan2.1 e una perdita di qualità trascurabile. La nostra variante più veloce, HiStream+, applica tutte e tre le ottimizzazioni (i+ii+iii), raggiungendo un'accelerazione di 107,5 volte rispetto al baseline, offrendo un compromesso convincente tra velocità e qualità, rendendo così la generazione di video ad alta risoluzione sia pratica che scalabile.

English

High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.

HiStream: Generazione Efficiente di Video ad Alta Risoluzione tramite Streaming a Ridotta Ridondanza

HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Abstract

Support