ChatPaper.aiChatPaper

PSA: 효율적인 비디오 이해 및 생성을 위한 피라미드 희소 주의

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

December 3, 2025
저자: Xiaolong Li, Youping Gu, Xi Lin, Weijie Wang, Bohan Zhuang
cs.AI

초록

어텐션 메커니즘은 파운데이션 모델의 핵심이지만, 그 이차적 복잡도는 확장성을 위한 중요한 병목 현상으로 남아 있습니다. 이러한 과제는 효율적인 어텐션 메커니즘의 개발을 촉진해 왔으며, 희소성(Sparsity)이 지배적인 패러다임으로 부상했습니다. 현재의 방법들은 일반적으로 이진 마스크(Binary Mask)를 사용해 키-값 블록 전체를 보유하거나 폐기하여, 높은 희소성 조건에서 상당한 정보 손실을 초래합니다. 이러한 격차를 완화하기 위해 우리는 비디오 이해 및 생성 작업 모두에 적용 가능한 다목적 모듈인 Pyramid Sparse Attention(PSA)을 제안합니다. PSA는 이진 마스킹 대신 다중 수준 풀링된 KV 표현을 도입하여 더 세분화된 마스크 단위를 가능하게 합니다. 구체적으로, 각 쿼리 블록은 중요한 KV 블록에는 낮은 풀링 수준을, 덜 중요한 블록에는 높은 수준을 동적으로 할당하여 완전 보유와 완전 제거 사이의 정보적 보간(Interpolation)을 생성합니다. 고정소수점 양자화 및 컴퓨터 비전의 고전적인 특징 피라미드 네트워크와 유사한 이 설계는 낮은 계산 예산 내에서 계산 효율성을 유지하면서 정보 손실을 효과적으로 완화합니다. PSA는 분리된 블록-타일 설계를 활용하는 기본적이고 하드웨어 친화적인 커널로 동작하여 효율적인 실행을 보장합니다. 다양한 비디오 이해 및 생성 벤치마크에서 PSA는 맥락 정보와 시각적 정확도를 보존하며, 우수한 효율성-품질 균형을 바탕으로 기존 희소 어텐션 기준선들을 일관되게 능가하거나 비슷한 성능을 달성합니다. 우리의 코드와 모델 가중치는 http://ziplab.co/PSA에서 공개되어 있습니다.
English
Attention mechanisms are the core of foundation models, but their quadratic complexity remains a critical bottleneck for scaling. This challenge has driven the development of efficient attention mechanisms, with sparsity emerging as the dominant paradigm. Current methods typically retain or discard entire key-value blocks with binary masks, resulting in substantial information loss under high sparsity. To mitigate this gap, we present Pyramid Sparse Attention (PSA), a versatile module applicable to both video understanding and generation tasks. Instead of binary masking, PSA introduces multi-level pooled KV representations, enabling finer mask granularity. Specifically, each query block dynamically allocates lower pooling levels to critical KV blocks and higher levels to less important ones, creating an informative interpolation between full retention and complete pruning. This design, analogous to fixed-point quantization and classical feature pyramid networks in computer vision, effectively mitigates information loss while preserving computational efficiency under a low compute budget. It works with a native, hardware-friendly kernel that leverages decoupled block-tile design to ensure efficient execution. Across video understanding and generation benchmarks, PSA preserves contextual information and visual fidelity, consistently outperforming or achieving comparable performance over existing sparse attention baselines with superior efficiency-quality trade-offs. Our code and model weights are publicly available at: http://ziplab.co/PSA
PDF11December 5, 2025