SVG-EAR: Compensación Lineal sin Parámetros para la Generación de Vídeo Disperso mediante Enrutamiento Consciente del Error
SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing
March 9, 2026
Autores: Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung
cs.AI
Resumen
Los Transformadores de Difusión (DiT) se han convertido en una arquitectura principal para la generación de vídeo, aunque su coste de atención cuadrático sigue siendo un cuello de botella importante. La atención dispersa reduce este coste calculando solo un subconjunto de bloques de atención. Sin embargo, los métodos anteriores a menudo descartan los bloques restantes, lo que conlleva una pérdida de información, o dependen de predictores entrenados para aproximarlos, introduciendo sobrecarga de entrenamiento y un posible desplazamiento en la distribución de salida. En este artículo, demostramos que las contribuciones faltantes pueden recuperarse sin entrenamiento: tras una agrupación semántica, las claves y los valores dentro de cada bloque exhiben una fuerte similitud y pueden resumirse adecuadamente mediante un pequeño conjunto de centroides de clúster. Basándonos en esta observación, presentamos SVG-EAR, una rama de compensación lineal sin parámetros que utiliza el centroide para aproximar los bloques omitidos y recuperar sus contribuciones. Si bien la compensación por centroides es precisa para la mayoría de los bloques, puede fallar en un pequeño subconjunto. La esparsificación estándar normalmente selecciona bloques por puntuaciones de atención, que indican dónde el modelo concentra su masa de atención, pero no dónde sería mayor el error de aproximación. Por lo tanto, SVG-EAR realiza un enrutamiento consciente del error: una sonda ligera estima el error de compensación para cada bloque, y calculamos exactamente los bloques con la relación error-coste más alta mientras compensamos los bloques omitidos. Proporcionamos garantías teóricas que relacionan el error de reconstrucción de la atención con la calidad de la agrupación, y demostramos empíricamente que SVG-EAR mejora la relación calidad-eficiencia y aumenta el rendimiento manteniendo la misma fidelidad de generación en tareas de difusión de vídeo. En general, SVG-EAR establece una frontera de Pareto clara sobre enfoques anteriores, logrando aceleraciones de hasta 1.77x y 1.93x mientras mantiene PSNR de hasta 29.759 y 31.043 en Wan2.2 y HunyuanVideo, respectivamente.
English
Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.