Benchmark dell'Attenzione a Lungo Contesto: Dall'Efficienza del Kernel al Parallelismo Distribuito del Contesto

Abstract

I modelli linguistici di grandi dimensioni (LLM) basati su Transformer hanno ottenuto risultati notevoli, tuttavia il loro meccanismo di attenzione standard comporta costi computazionali e di memoria quadratici rispetto alla lunghezza della sequenza, rappresentando un collo di bottiglia principale per l'addestramento con contesti lunghi. I lavori precedenti affrontano questa sfida lungo due direzioni: (1) ottimizzazioni a livello di kernel, che accelerano gli operatori di attenzione densa e sparsa; e (2) strategie a livello di modulo, spesso denominate attenzione distribuita o addestramento parallelo per contesto, che scalano l'attenzione su più dispositivi. Tuttavia, la valutazione sistematica rimane limitata: i confronti a livello di operatore sono spesso incompleti, mentre le strategie parallele per contesto sono tipicamente specifiche del framework, con un'analisi delle prestazioni non chiara tra diversi contesti. Per colmare queste lacune, proponiamo un benchmark unificato che integra kernel di attenzione rappresentativi e meccanismi paralleli per contesto con un'interfaccia modulare ed estensibile per la valutazione. Il benchmark valuta i metodi lungo due dimensioni critiche: (1) i pattern di maschera di attenzione, che influiscono fortemente su efficienza, scalabilità e usabilità, e (2) la lunghezza della sequenza e la scala distribuita, che determinano le prestazioni in condizioni di addestramento estremo con contesti lunghi. Attraverso esperimenti completi su un cluster di fino a 96 GPU, il nostro benchmark consente confronti riproducibili, evidenzia compromessi specifici dei metodi e fornisce indicazioni pratiche per la progettazione e il deployment di meccanismi di attenzione nell'addestramento di LLM con contesti lunghi.

English

Transformer-based large language models (LLMs) have achieved remarkable success, yet their standard attention mechanism incurs quadratic computation and memory costs with respect to sequence length, posing a major bottleneck for long-context training. Prior work tackles this challenge along two directions: (1) kernel-level optimizations, which accelerate dense and sparse attention operators; and (2) module-level strategies, often referred to as distributed attention or context parallel training, which scale attention across multiple devices. However, systematic evaluation still remains limited: operator-level comparisons are often incomplete, while context parallel strategies are typically framework-specific, with unclear performance analysis across contexts. To address these gaps, we propose a unified benchmark that integrates representative attention kernels and context parallel mechanisms with a modular and extensible interface for evaluation. The benchmark evaluates methods along two critical dimensions: (1) attention mask patterns, which strongly affect efficiency, scalability, and usability, and (2) sequence length and distributed scale, which determine performance under extreme long-context training. Through comprehensive experiments on the cluster of up to 96 GPUs, our benchmark enables reproducible comparisons, highlights method-specific trade-offs, and provides practical guidance for designing and deploying attention mechanisms in long-context LLM training.

Benchmark dell'Attenzione a Lungo Contesto: Dall'Efficienza del Kernel al Parallelismo Distribuito del Contesto

Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism

Abstract

Support