ChatPaper.aiChatPaper

Benchmark de Atención de Contexto Extendido: Desde la Eficiencia del Kernel hasta el Paralelismo de Contexto Distribuido

Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism

October 19, 2025
Autores: Tao Bu, Qiangang Wang, Bowen Zeng, Hanwen Sun, Yunpeng Huang, Chun Cao, Jingwei Xu
cs.AI

Resumen

Los modelos de lenguaje extenso (LLM) basados en transformers han logrado un éxito notable, aunque su mecanismo de atención estándar incurre en costos computacionales y de memoria cuadráticos con respecto a la longitud de la secuencia, lo que supone un cuello de botella principal para el entrenamiento de contextos largos. Trabajos previos abordan este desafío en dos direcciones: (1) optimizaciones a nivel de kernel, que aceleran los operadores de atención densa y dispersa; y (2) estrategias a nivel de módulo, a menudo denominadas atención distribuida o entrenamiento paralelo de contexto, que escalan la atención a través de múltiples dispositivos. Sin embargo, la evaluación sistemática aún sigue siendo limitada: las comparaciones a nivel de operador a menudo son incompletas, mientras que las estrategias de paralelización de contexto son típicamente específicas del framework, con un análisis de rendimiento poco claro en distintos contextos. Para abordar estas brechas, proponemos un benchmark unificado que integra kernels de atención representativos y mecanismos de paralelización de contexto con una interfaz modular y extensible para su evaluación. El benchmark evalúa los métodos en dos dimensiones críticas: (1) los patrones de máscara de atención, que afectan fuertemente la eficiencia, escalabilidad y usabilidad, y (2) la longitud de secuencia y la escala distribuida, que determinan el rendimiento en entrenamientos de contexto extremadamente largo. Mediante experimentos exhaustivos en un clúster de hasta 96 GPUs, nuestro benchmark permite comparaciones reproducibles, destaca compensaciones específicas de cada método y proporciona orientación práctica para diseñar e implementar mecanismos de atención en el entrenamiento de LLM de contexto largo.
English
Transformer-based large language models (LLMs) have achieved remarkable success, yet their standard attention mechanism incurs quadratic computation and memory costs with respect to sequence length, posing a major bottleneck for long-context training. Prior work tackles this challenge along two directions: (1) kernel-level optimizations, which accelerate dense and sparse attention operators; and (2) module-level strategies, often referred to as distributed attention or context parallel training, which scale attention across multiple devices. However, systematic evaluation still remains limited: operator-level comparisons are often incomplete, while context parallel strategies are typically framework-specific, with unclear performance analysis across contexts. To address these gaps, we propose a unified benchmark that integrates representative attention kernels and context parallel mechanisms with a modular and extensible interface for evaluation. The benchmark evaluates methods along two critical dimensions: (1) attention mask patterns, which strongly affect efficiency, scalability, and usability, and (2) sequence length and distributed scale, which determine performance under extreme long-context training. Through comprehensive experiments on the cluster of up to 96 GPUs, our benchmark enables reproducible comparisons, highlights method-specific trade-offs, and provides practical guidance for designing and deploying attention mechanisms in long-context LLM training.
PDF42December 2, 2025