ChatPaper.aiChatPaper

PSA: Attenzione Sparsa Piramidale per la Comprensione e Generazione Efficiente di Video

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

December 3, 2025
Autori: Xiaolong Li, Youping Gu, Xi Lin, Weijie Wang, Bohan Zhuang
cs.AI

Abstract

I meccanismi di attenzione sono il cuore dei modelli fondazionali, ma la loro complessità quadratica rimane un collo di bottiglia critico per il scaling. Questa sfida ha guidato lo sviluppo di meccanismi di attenzione efficienti, con la sparsità emersa come paradigma dominante. I metodi attuali tipicamente conservano o scartano interi blocchi chiave-valore con maschere binarie, risultando in una sostanziale perdita di informazioni sotto alta sparsità. Per mitigare questo divario, presentiamo Pyramid Sparse Attention (PSA), un modulo versatile applicabile sia a compiti di comprensione che di generazione video. Invece del mascheramento binario, PSA introduce rappresentazioni KV poolate multi-livello, consentendo una granularità della maschera più fine. Nello specifico, ogni blocco di query assegna dinamicamente livelli di pooling inferiori ai blocchi KV critici e livelli superiori a quelli meno importanti, creando un'interpolazione informativa tra la ritenzione completa e la potatura totale. Questo design, analogo alla quantizzazione a punto fisso e alle reti piramidali classiche nella visione artificiale, mitiga efficacemente la perdita di informazioni preservando l'efficienza computazionale con un budget computazionale ridotto. Funziona con un kernel nativo e hardware-friendly che sfrutta un design block-tile disaccoppiato per garantire un'esecuzione efficiente. Sui benchmark di comprensione e generazione video, PSA preserva le informazioni contestuali e la fedeltà visiva, superando costantemente o raggiungendo prestazioni comparabili rispetto ai baseline di attenzione sparsa esistenti con trade-off efficienza-qualità superiori. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo: http://ziplab.co/PSA
English
Attention mechanisms are the core of foundation models, but their quadratic complexity remains a critical bottleneck for scaling. This challenge has driven the development of efficient attention mechanisms, with sparsity emerging as the dominant paradigm. Current methods typically retain or discard entire key-value blocks with binary masks, resulting in substantial information loss under high sparsity. To mitigate this gap, we present Pyramid Sparse Attention (PSA), a versatile module applicable to both video understanding and generation tasks. Instead of binary masking, PSA introduces multi-level pooled KV representations, enabling finer mask granularity. Specifically, each query block dynamically allocates lower pooling levels to critical KV blocks and higher levels to less important ones, creating an informative interpolation between full retention and complete pruning. This design, analogous to fixed-point quantization and classical feature pyramid networks in computer vision, effectively mitigates information loss while preserving computational efficiency under a low compute budget. It works with a native, hardware-friendly kernel that leverages decoupled block-tile design to ensure efficient execution. Across video understanding and generation benchmarks, PSA preserves contextual information and visual fidelity, consistently outperforming or achieving comparable performance over existing sparse attention baselines with superior efficiency-quality trade-offs. Our code and model weights are publicly available at: http://ziplab.co/PSA
PDF11December 5, 2025