SVG-EAR: Беспараметричная линейная компенсация разреженной генерации видео с помощью маршрутизации с учетом ошибок
SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing
March 9, 2026
Авторы: Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung
cs.AI
Аннотация
Диффузионные трансформеры (DiT) стали ведущей архитектурой для генерации видео, однако их квадратичная вычислительная сложность, связанная с механизмом внимания, остается основным узким местом. Разреженное внимание снижает эти затраты, вычисляя только подмножество блоков внимания. Однако существующие методы часто либо полностью отбрасывают оставшиеся блоки, что приводит к потере информации, либо используют обученные предсказатели для их аппроксимации, что влечет дополнительные затраты на обучение и потенциальное смещение выходного распределения. В данной работе мы показываем, что недостающие вклады можно восстановить без обучения: после семантической кластеризации ключи и значения внутри каждого блока демонстрируют сильное сходство и могут быть хорошо описаны небольшим набором центроидов кластеров. Основываясь на этом наблюдении, мы представляем SVG-EAR — свободный от параметров линейный компенсационный блок, который использует центроид для аппроксимации пропущенных блоков и восстановления их вклада. Хотя компенсация на основе центроида точна для большинства блоков, она может давать сбой на небольшом их подмножестве. Стандартная разреженность обычно выбирает блоки по весам внимания, которые указывают, куда модель направляет основную массу внимания, но не показывают, где ошибка аппроксимации будет наибольшей. Поэтому SVG-EAR выполняет маршрутизацию с учетом ошибки: легковесный пробник оценивает ошибку компенсации для каждого блока, и мы точно вычисляем блоки с наибольшим отношением ошибки к стоимости, одновременно компенсируя пропущенные блоки. Мы предоставляем теоретические гарантии, связывающие ошибку реконструкции внимания с качеством кластеризации, и эмпирически показываем, что SVG-EAR улучшает компромисс между качеством и эффективностью и повышает пропускную способность при сохранении точности генерации в задачах видео-диффузии. В целом, SVG-EAR устанавливает четкий парето-фронт по сравнению с предыдущими подходами, достигая ускорения до 1,77 и 1,93 раза при сохранении PSNR до 29,759 и 31,043 на Wan2.2 и HunyuanVideo соответственно.
English
Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.