SVG-EAR: Compensazione Lineare Senza Parametri per la Generazione di Video Sparse tramite Instradamento Consapevole dell'Errore

Abstract

I Diffusion Transformer (DiT) sono diventati un'architettura di riferimento per la generazione video, nonostante il costo quadratico dell'attenzione rimanga un collo di bottiglia principale. L'attenzione sparsa riduce questo costo calcolando solo un sottoinsieme dei blocchi di attenzione. Tuttavia, i metodi precedenti spesso scartano i blocchi rimanenti, con conseguente perdita di informazioni, o si affidano a predittori appresi per approssimarli, introduendo sovraccarico computazionale durante l'addestramento e potenziali scostamenti nella distribuzione di output. In questo articolo, dimostriamo che i contributi mancanti possono essere recuperati senza addestramento: dopo il clustering semantico, le chiavi e i valori all'interno di ciascun blocco mostrano una forte similarità e possono essere ben riassunti da un piccolo insieme di centroidi dei cluster. Sulla base di questa osservazione, introduciamo SVG-EAR, un ramo di compensazione lineare e privo di parametri che utilizza il centroide per approssimare i blocchi saltati e recuperarne i contributi. Sebbene la compensazione tramite centroide sia accurata per la maggior parte dei blocchi, può fallire su un piccolo sottoinsieme. La sparsificazione standard tipicamente seleziona i blocchi in base ai punteggi di attenzione, che indicano dove il modello concentra la sua massa attentiva, ma non dove l'errore di approssimazione sarebbe maggiore. SVG-EAR pertanto implementa un instradamento consapevole dell'errore: una sonda leggera stima l'errore di compensazione per ogni blocco, e calcoliamo esattamente i blocchi con il rapporto errore-costo più elevato, compensando quelli saltati. Forniamo garanzie teoriche che collegano l'errore di ricostruzione dell'attenzione alla qualità del clustering, e dimostriamo empiricamente che SVG-EAR migliora il compromesso qualità-efficienza e aumenta il throughput a parità di fedeltà generativa in compiti di diffusione video. Nel complesso, SVG-EAR stabilisce una chiara frontiera di Pareto rispetto agli approcci precedenti, raggiungendo accelerazioni fino a 1,77x e 1,93x mantenendo valori PSNR fino a 29,759 e 31,043 rispettivamente su Wan2.2 e HunyuanVideo.

English

Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.

SVG-EAR: Compensazione Lineare Senza Parametri per la Generazione di Video Sparse tramite Instradamento Consapevole dell'Errore

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Abstract

Support