PSA: Atenção Esparsa em Pirâmide para Compreensão e Geração Eficiente de Vídeos

Resumo

Os mecanismos de atenção são o núcleo dos modelos de base, mas sua complexidade quadrática permanece um gargalo crítico para o dimensionamento. Este desafio impulsionou o desenvolvimento de mecanismos de atenção eficientes, com a esparsidade emergindo como o paradigma dominante. Os métodos atuais normalmente retêm ou descartam blocos inteiros de chave-valor com máscaras binárias, resultando em perda substancial de informação sob alta esparsidade. Para mitigar esta lacuna, apresentamos a Atenção Esparsa Piramidal (PSA), um módulo versátil aplicável tanto a tarefas de compreensão quanto de geração de vídeo. Em vez de mascaramento binário, a PSA introduz representações KV com pooling multinível, permitindo uma granularidade de máscara mais refinada. Especificamente, cada bloco de consulta aloca dinamicamente níveis de pooling mais baixos para blocos KV críticos e níveis mais altos para os menos importantes, criando uma interpolação informativa entre a retenção total e a poda completa. Este desenho, análogo à quantização de ponto fixo e às redes de pirâmide de características clássicas na visão computacional, mitiga efetivamente a perda de informação enquanto preserva a eficiência computacional sob um orçamento computacional baixo. Ele funciona com um kernel nativo e compatível com hardware que aproveita um desenho de bloco-ladrilho desacoplado para garantir execução eficiente. Em benchmarks de compreensão e geração de vídeo, a PSA preserva informações contextuais e fidelidade visual, superando consistentemente ou alcançando desempenho comparável às bases de atenção esparsa existentes com trade-offs de eficiência-qualidade superiores. Nosso código e pesos dos modelos estão publicamente disponíveis em: http://ziplab.co/PSA

English

Attention mechanisms are the core of foundation models, but their quadratic complexity remains a critical bottleneck for scaling. This challenge has driven the development of efficient attention mechanisms, with sparsity emerging as the dominant paradigm. Current methods typically retain or discard entire key-value blocks with binary masks, resulting in substantial information loss under high sparsity. To mitigate this gap, we present Pyramid Sparse Attention (PSA), a versatile module applicable to both video understanding and generation tasks. Instead of binary masking, PSA introduces multi-level pooled KV representations, enabling finer mask granularity. Specifically, each query block dynamically allocates lower pooling levels to critical KV blocks and higher levels to less important ones, creating an informative interpolation between full retention and complete pruning. This design, analogous to fixed-point quantization and classical feature pyramid networks in computer vision, effectively mitigates information loss while preserving computational efficiency under a low compute budget. It works with a native, hardware-friendly kernel that leverages decoupled block-tile design to ensure efficient execution. Across video understanding and generation benchmarks, PSA preserves contextual information and visual fidelity, consistently outperforming or achieving comparable performance over existing sparse attention baselines with superior efficiency-quality trade-offs. Our code and model weights are publicly available at: http://ziplab.co/PSA