SVG-EAR: Compensação Linear Livre de Parâmetros para Geração de Vídeo Esparso via Roteamento Consciente de Erro

Resumo

Os Transformadores de Difusão (DiTs) tornaram-se uma arquitetura fundamental para geração de vídeo, mas seu custo quadrático de atenção permanece um grande gargalo. A atenção esparsa reduz esse custo ao calcular apenas um subconjunto de blocos de atenção. No entanto, métodos anteriores frequentemente descartam os blocos restantes – o que causa perda de informação – ou dependem de preditores treinados para aproximá-los, introduzindo sobrecarga de treinamento e possíveis desvios na distribuição de saída. Neste artigo, demonstramos que as contribuições ausentes podem ser recuperadas sem treinamento: após o agrupamento semântico, as chaves e valores dentro de cada bloco exibem forte similaridade e podem ser bem resumidos por um pequeno conjunto de centróides de cluster. Com base nessa observação, introduzimos o SVG-EAR, um ramo de compensação linear sem parâmetros que usa o centróide para aproximar blocos ignorados e recuperar suas contribuições. Embora a compensação por centróide seja precisa para a maioria dos blocos, ela pode falhar em um pequeno subconjunto. A esparsificação padrão normalmente seleciona blocos por escores de atenção, que indicam onde o modelo concentra sua massa de atenção, mas não onde o erro de aproximação seria maior. Portanto, o SVG-EAR realiza um roteamento consciente do erro: uma sonda leve estima o erro de compensação para cada bloco, e nós calculamos exatamente os blocos com maior relação erro-custo enquanto compensamos os blocos ignorados. Fornecemos garantias teóricas que relacionam o erro de reconstrução de atenção à qualidade do agrupamento e empiricamente mostramos que o SVG-EAR melhora o compromisso qualidade-eficiência e aumenta a taxa de transferência com a mesma fidelidade de geração em tarefas de difusão de vídeo. No geral, o SVG-EAR estabelece uma fronteira de Pareto clara sobre abordagens anteriores, alcançando acelerações de até 1,77× e 1,93× enquanto mantém PSNRs de até 29,759 e 31,043 em Wan2.2 e HunyuanVideo, respectivamente.

English

Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.

SVG-EAR: Compensação Linear Livre de Parâmetros para Geração de Vídeo Esparso via Roteamento Consciente de Erro

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Resumo

Support