HiStream: Geração Eficiente de Vídeos de Alta Resolução via Streaming com Eliminação de Redundâncias

Resumo

A geração de vídeo de alta resolução, embora crucial para a mídia digital e o cinema, enfrenta um estrangulamento computacional devido à complexidade quadrática dos modelos de difusão, tornando a inferência prática inviável. Para resolver isso, introduzimos o HiStream, uma estrutura autoregressiva eficiente que reduz sistematicamente a redundância em três eixos: i) Compressão Espacial: remoção de ruído em baixa resolução antes do refinamento em alta resolução com características em cache; ii) Compressão Temporal: uma estratégia de bloco a bloco com um cache de âncora de tamanho fixo, garantindo velocidade de inferência estável; e iii) Compressão de Passos Temporais: aplicação de menos etapas de remoção de ruído aos blocos subsequentes, condicionados pelo cache. Em benchmarks de 1080p, nosso modelo principal HiStream (i+ii) atinge qualidade visual de última geração enquanto demonstra uma remoção de ruído até 76,2x mais rápida em comparação com a linha de base Wan2.1 e uma perda de qualidade insignificante. Nossa variante mais rápida, HiStream+, aplica todas as três otimizações (i+ii+iii), alcançando uma aceleração de 107,5x sobre a linha de base, oferecendo uma relação convincente entre velocidade e qualidade, tornando assim a geração de vídeo de alta resolução prática e escalável.

English

High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.