Benchmark dell'Attenzione a Lungo Contesto: Dall'Efficienza del Kernel al Parallelismo Distribuito del Contesto
Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism
October 19, 2025
Autori: Tao Bu, Qiangang Wang, Bowen Zeng, Hanwen Sun, Yunpeng Huang, Chun Cao, Jingwei Xu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer hanno ottenuto risultati notevoli, tuttavia il loro meccanismo di attenzione standard comporta costi computazionali e di memoria quadratici rispetto alla lunghezza della sequenza, rappresentando un collo di bottiglia principale per l'addestramento con contesti lunghi. I lavori precedenti affrontano questa sfida lungo due direzioni: (1) ottimizzazioni a livello di kernel, che accelerano gli operatori di attenzione densa e sparsa; e (2) strategie a livello di modulo, spesso denominate attenzione distribuita o addestramento parallelo per contesto, che scalano l'attenzione su più dispositivi. Tuttavia, la valutazione sistematica rimane limitata: i confronti a livello di operatore sono spesso incompleti, mentre le strategie parallele per contesto sono tipicamente specifiche del framework, con un'analisi delle prestazioni non chiara tra diversi contesti. Per colmare queste lacune, proponiamo un benchmark unificato che integra kernel di attenzione rappresentativi e meccanismi paralleli per contesto con un'interfaccia modulare ed estensibile per la valutazione. Il benchmark valuta i metodi lungo due dimensioni critiche: (1) i pattern di maschera di attenzione, che influiscono fortemente su efficienza, scalabilità e usabilità, e (2) la lunghezza della sequenza e la scala distribuita, che determinano le prestazioni in condizioni di addestramento estremo con contesti lunghi. Attraverso esperimenti completi su un cluster di fino a 96 GPU, il nostro benchmark consente confronti riproducibili, evidenzia compromessi specifici dei metodi e fornisce indicazioni pratiche per la progettazione e il deployment di meccanismi di attenzione nell'addestramento di LLM con contesti lunghi.
English
Transformer-based large language models (LLMs) have achieved remarkable
success, yet their standard attention mechanism incurs quadratic computation
and memory costs with respect to sequence length, posing a major bottleneck for
long-context training. Prior work tackles this challenge along two directions:
(1) kernel-level optimizations, which accelerate dense and sparse attention
operators; and (2) module-level strategies, often referred to as distributed
attention or context parallel training, which scale attention across multiple
devices. However, systematic evaluation still remains limited: operator-level
comparisons are often incomplete, while context parallel strategies are
typically framework-specific, with unclear performance analysis across
contexts. To address these gaps, we propose a unified benchmark that integrates
representative attention kernels and context parallel mechanisms with a modular
and extensible interface for evaluation. The benchmark evaluates methods along
two critical dimensions: (1) attention mask patterns, which strongly affect
efficiency, scalability, and usability, and (2) sequence length and distributed
scale, which determine performance under extreme long-context training. Through
comprehensive experiments on the cluster of up to 96 GPUs, our benchmark
enables reproducible comparisons, highlights method-specific trade-offs, and
provides practical guidance for designing and deploying attention mechanisms in
long-context LLM training.