SVG-EAR: Parameterfreie lineare Kompensation für die Erzeugung dünn besetzter Videos mittels fehlerbewusstem Routing

Zusammenfassung

Diffusion Transformer (DiTs) haben sich als führendes Grundgerüst für die Videogenerierung etabliert, doch ihre quadratischen Aufmerksamkeitskosten bleiben ein Hauptengpass. Sparsame Aufmerksamkeit (Sparse Attention) reduziert diese Kosten, indem nur eine Teilmenge der Aufmerksamkeitsblöcke berechnet wird. Bisherige Methoden lassen jedoch oft die übrigen Blöcke weg, was zu Informationsverlust führt, oder stützen sich auf trainierte Prädiktoren zur Approximation, was Trainingsaufwand und eine potenzielle Verschiebung der Ausgabeverteilung mit sich bringt. In dieser Arbeit zeigen wir, dass die fehlenden Beiträge ohne Training wiederhergestellt werden können: Nach semantischem Clustering weisen Schlüssel und Werte innerhalb jedes Blocks eine hohe Ähnlichkeit auf und können durch eine kleine Menge von Clusterzentroiden gut zusammengefasst werden. Basierend auf dieser Beobachtung führen wir SVG-EAR ein, einen parameterfreien linearen Kompensationszweig, der das Zentroid zur Approximation übersprungener Blöcke und zur Wiederherstellung ihrer Beiträge nutzt. Während die Zentroiden-Kompensation für die meisten Blöcke genau ist, kann sie bei einer kleinen Teilmenge versagen. Standard-Sparsamkeitsverfahren wählen Blöcke typischerweise anhand von Aufmerksamkeitswerten aus, die anzeigen, wo das Modell seine Aufmerksamkeitsmasse platziert, nicht aber, wo der Approximationsfehler am größten wäre. Daher führt SVG-EAR einen fehlerbewussten Routing-Mechanismus (Error-Aware Routing) durch: Eine leichte Prüfkomponente (Probe) schätzt den Kompensationsfehler für jeden Block, und wir berechnen exakt die Blöcke mit dem höchsten Fehler-Kosten-Verhältnis, während wir übersprungene Blöcke kompensieren. Wir liefern theoretische Garantien, die den Rekonstruktionsfehler der Aufmerksamkeit mit der Clustering-Qualität in Beziehung setzen, und zeigen empirisch, dass SVG-EAR das Qualitäts-Effizienz-Verhältnis verbessert und den Durchsatz bei gleicher Generierungsqualität in Video-Diffusionsaufgaben steigert. Insgesamt etabliert SVG-EAR eine klare Pareto-Grenze gegenüber früheren Ansätzen und erreicht bis zu 1,77-fache bzw. 1,93-fache Beschleunigungen bei gleichzeitiger Beibehaltung von PSNR-Werten von bis zu 29,759 bzw. 31,043 auf Wan2.2 und HunyuanVideo.

English

Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77times and 1.93times speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.

SVG-EAR: Parameterfreie lineare Kompensation für die Erzeugung dünn besetzter Videos mittels fehlerbewusstem Routing

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Zusammenfassung

Support