PSA: Piramidale Sparse Attention voor Efficiënte Videobegrip en -generatie
PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
December 3, 2025
Auteurs: Xiaolong Li, Youping Gu, Xi Lin, Weijie Wang, Bohan Zhuang
cs.AI
Samenvatting
Aandachtmechanismen vormen de kern van foundation-modellen, maar hun kwadratische complexiteit blijft een kritieke bottleneck voor schaalvergroting. Deze uitdaging heeft de ontwikkeling van efficiënte aandachtsmechanismen gestimuleerd, waarbij sparse aandacht het dominante paradigma is geworden. Huidige methoden behouden of verwijderen typisch hele key-value-blokken met binaire maskers, wat aanzienlijk informatieverlies tot gevolg heeft onder hoge sparseheid. Om deze kloof te verkleinen, presenteren we Pyramid Sparse Attention (PSA), een veelzijdige module die toepasbaar is op zowel video-interpretatie- als generatietaken. In plaats van binaire masking introduceert PSA multi-level gepoolde KV-representaties, wat een fijnere maskerkorrelgrootte mogelijk maakt. Concreet wijst elk query-blok dynamisch lagere poolingniveaus toe aan kritieke KV-blokken en hogere niveaus aan minder belangrijke blokken, waardoor een informatieve interpolatie ontstaat tussen volledig behoud en volledige verwijdering. Dit ontwerp, analoog aan fixed-point kwantisatie en klassieke feature pyramid netwerken in computervisie, vermindert effectief informatieverlies terwijl het rekenefficiëntie behoudt onder een laag rekenbudget. Het werkt met een native, hardwarevriendelijke kernel die gebruikmaakt van een ontkoppeld block-tile-ontwerp om efficiënte uitvoering te garanderen. In benchmarks voor video-interpretatie en -generatie behoudt PSA contextuele informatie en visuele kwaliteit, en presteert consequent beter of vergelijkbaar met bestaande sparse-aandacht-baselines met superieure efficiëntie-kwaliteit-afwegingen. Onze code en modelgewichten zijn openbaar beschikbaar op: http://ziplab.co/PSA.
English
Attention mechanisms are the core of foundation models, but their quadratic complexity remains a critical bottleneck for scaling. This challenge has driven the development of efficient attention mechanisms, with sparsity emerging as the dominant paradigm. Current methods typically retain or discard entire key-value blocks with binary masks, resulting in substantial information loss under high sparsity. To mitigate this gap, we present Pyramid Sparse Attention (PSA), a versatile module applicable to both video understanding and generation tasks. Instead of binary masking, PSA introduces multi-level pooled KV representations, enabling finer mask granularity. Specifically, each query block dynamically allocates lower pooling levels to critical KV blocks and higher levels to less important ones, creating an informative interpolation between full retention and complete pruning. This design, analogous to fixed-point quantization and classical feature pyramid networks in computer vision, effectively mitigates information loss while preserving computational efficiency under a low compute budget. It works with a native, hardware-friendly kernel that leverages decoupled block-tile design to ensure efficient execution. Across video understanding and generation benchmarks, PSA preserves contextual information and visual fidelity, consistently outperforming or achieving comparable performance over existing sparse attention baselines with superior efficiency-quality trade-offs. Our code and model weights are publicly available at: http://ziplab.co/PSA