SVG-EAR: 오차 인식 라우팅을 통한 희소 비디오 생성을 위한 매개변수 없는 선형 보상
SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing
March 9, 2026
저자: Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung
cs.AI
초록
확산 변환기(Diffusion Transformers, DiTs)는 비디오 생성 분야에서 주요 백본으로 자리 잡았으나, 이차 복잡도의 어텐션 비용이 여전히 큰 병목 현상으로 남아 있습니다. 희소 어텐션은 어텐션 블록의 일부만 계산하여 이 비용을 줄입니다. 그러나 기존 방법은 종종 나머지 블록을 제거하여 정보 손실을 초래하거나, 학습된 예측기를 통해 이를 근사화하여 학습 오버헤드와 출력 분포 변화 가능성을 야기했습니다. 본 논문에서는 누락된 기여도를 추가 학습 없이 복구할 수 있음을 보입니다. 의미론적 클러스터링 후 각 블록 내 키와 값은 강한 유사성을 보이며 소수의 클러스터 중심점으로 잘 요약될 수 있습니다. 이 관찰을 바탕으로, 중심점을 사용하여 생략된 블록을 근사화하고 그 기여도를 복구하는 매개변수 없는 선형 보상 브랜치인 SVG-EAR을 제안합니다. 중심점 보상은 대부분의 블록에 대해 정확하지만 소수 블록에서는 실패할 수 있습니다. 일반적인 희소화는 주로 어텐션 점수에 따라 블록을 선택하는데, 이는 모델이 어텐션을 집중시키는 위치는 나타내지만 근사 오차가 가장 클 위치를 나타내지는 않습니다. 따라서 SVG-EAR은 오차 인식 라우팅을 수행합니다. 경량 프로브가 각 블록의 보상 오차를 추정하며, 우리는 생략된 블록을 보상하면서 오차 대 비용 비율이 가장 높은 블록들을 정확하게 계산합니다. 우리는 어텐션 재구성 오차와 클러스터링 품질 간의 관계를 이론적으로 보장하며, SVG-EAR이 품질-효율 트레이드오프를 개선하고 동일한 생성 충실도 하에서 비디오 확산 작업의 처리량을 증가시킴을 실증적으로 보입니다. 전반적으로 SVG-EAR은 기존 접근법 대비 명확한 파레토 최적선을确立하며, Wan2.2와 HunyuanVideo에서 각각 최대 29.759와 31.043의 PSNR을 유지하면서 최대 1.77배 및 1.93배의 속도 향상을 달성합니다.
English
Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.