SVG-EAR : Compensation linéaire sans paramètres pour la génération de vidéos éparses via un routage sensible aux erreurs

Résumé

Les Transformers de Diffusion (DiTs) sont devenus une architecture de référence pour la génération vidéo, mais leur coût attentionnel quadratique reste un goulot d'étranglement majeur. L'attention parcimonieuse réduit ce coût en ne calculant qu'un sous-ensemble des blocs d'attention. Cependant, les méthodes existantes suppriment souvent les blocs restants, ce qui entraîne une perte d'information, ou s'appuient sur des prédicteurs appris pour les approximer, introduisant une surcharge d'entraînement et un décalage potentiel de la distribution de sortie. Dans cet article, nous montrons que les contributions manquantes peuvent être récupérées sans apprentissage : après un regroupement sémantique, les clés et les valeurs au sein de chaque bloc présentent une forte similarité et peuvent être bien résumées par un petit ensemble de centroïdes de cluster. Sur la base de cette observation, nous introduisons SVG-EAR, une branche de compensation linéaire sans paramètres qui utilise le centroïde pour approximer les blocs ignorés et récupérer leurs contributions. Bien que la compensation par centroïde soit précise pour la plupart des blocs, elle peut échouer sur un petit sous-ensemble. La sparsification standard sélectionne typiquement les blocs par les scores d'attention, qui indiquent où le modèle concentre sa masse attentionnelle, mais pas où l'erreur d'approximation serait la plus grande. SVG-EAR effectue donc un routage sensible à l'erreur : une sonde légère estime l'erreur de compensation pour chaque bloc, et nous calculons exactement les blocs ayant le ratio erreur-sur-coût le plus élevé tout en compensant les blocs ignorés. Nous fournissons des garanties théoriques qui relient l'erreur de reconstruction de l'attention à la qualité du clustering, et montrons empiriquement que SVG-EAR améliore le compromis qualité-efficacité et augmente le débit pour une fidélité de génération équivalente sur des tâches de diffusion vidéo. Globalement, SVG-EAR établit une frontière de Pareto clairement supérieure aux approches précédentes, atteignant des accélérations allant jusqu'à 1,77x et 1,93x tout en maintenant des PSNR allant jusqu'à 29,759 et 31,043 sur Wan2.2 et HunyuanVideo, respectivement.

English

Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.

SVG-EAR : Compensation linéaire sans paramètres pour la génération de vidéos éparses via un routage sensible aux erreurs

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Résumé

Support