HiStream:冗長性排除ストリーミングによる高効率な高解像度動画生成
HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
December 24, 2025
著者: Haonan Qiu, Shikun Liu, Zijian Zhou, Zhaochong An, Weiming Ren, Zhiheng Liu, Jonas Schult, Sen He, Shoufa Chen, Yuren Cong, Tao Xiang, Ziwei Liu, Juan-Manuel Perez-Rua
cs.AI
要旨
高解像度動画生成は、デジタルメディアや映画制作において重要である一方、拡散モデルの二次計算複雑性によって計算上のボトルネックが生じ、実用的な推論が困難となっている。この課題に対処するため、我々はHiStreamを提案する。これは、3つの軸で冗長性を体系的に削減する効率的な自己回帰フレームワークである:i) 空間圧縮:キャッシュされた特徴量を活用し、低解像度でノイズ除去後に高解像度で精緻化する、ii) 時間圧縮:固定サイズのアンカーキャッシュを用いたチャンク単位の処理戦略により、推論速度を安定化する、iii) タイムステップ圧縮:キャッシュ条件付けされた後続チャンクに対して、より少ないノイズ除去ステップを適用する。1080pベンチマークにおいて、基本モデルHiStream(i+ii)は、Wan2.1ベースラインと比較して最大76.2倍高速なノイズ除去を実現し、視覚品質の劣化を無視できるレベルに抑えつつ、最先端の画質を達成した。更に高速な変種であるHiStream+は3つの最適化(i+ii+iii)を全て適用し、ベースライン比107.5倍の高速化を実現。速度と品質の理想的なトレードオフを提供することで、高解像度動画生成を実用的かつスケーラブルなものとする。
English
High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.