SVG-EAR: Parameters-vrije lineaire compensatie voor sparse videogeneratie via foutbewuste routering
SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing
March 9, 2026
Auteurs: Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung
cs.AI
Samenvatting
Diffusion Transformers (DiTs) zijn een toonaangevende backbone geworden voor videogeneratie, maar hun kwadratische aandachtkosten vormen een grote bottleneck. Sparse aandacht vermindert deze kosten door slechts een subset van aandachtblokken te berekenen. Eerdere methoden laten de overige blokken echter vaak vallen, wat tot informatieverlies leidt, of vertrouwen op aangeleerde voorspellers om ze te benaderen, wat trainingsoverhead en mogelijke verschuivingen in de outputdistributie introduceert. In dit artikel tonen we aan dat de ontbrekende bijdragen zonder training kunnen worden hersteld: na semantische clustering vertonen sleutels en waarden binnen elk blok een sterke gelijkenis en kunnen ze goed worden samengevat door een kleine set clustercentroïden. Gebaseerd op deze observatie introduceren we SVG-EAR, een parametervrije lineaire compensatietak die de centroïde gebruikt om overgeslagen blokken te benaderen en hun bijdragen te herstellen. Hoewel centroïdecompensatie voor de meeste blokken accuraat is, kan ze falen voor een kleine subset. Standaard versparsing selecteert blokken typisch op basis van aandachtscores, die aangeven waar het model zijn aandachtsmassa plaatst, maar niet waar de benaderingsfout het grootst zou zijn. SVG-EAR voert daarom foutbewuste routing uit: een lichtgewicht probe schat de compensatiefout voor elk blok, en we berekenen exact de blokken met de hoogste fout-tot-kostenverhouding terwijl we de overgeslagen blokken compenseren. We bieden theoretische garanties die de aandachtreconstructiefout relateren aan clusteringkwaliteit, en tonen empirisch aan dat SVG-EAR de kwaliteit-efficiëntie-afweging verbetert en de doorvoer verhoogt bij dezelfde generatiefidelijkheid op videodiffusietaken. Al met al vestigt SVG-EAR een duidelijke Pareto-frontier ten opzichte van eerdere benaderingen, met snelheidswinsten tot 1,77x en 1,93x terwijl PSNR-waarden tot 29,759 en 31,043 worden gehandhaafd op respectievelijk Wan2.2 en HunyuanVideo.
English
Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.