La Frontera de la Dispersión: Compromisos en la Atención Dispersa en Transformadores de Lenguaje de Gran Escala
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
April 24, 2025
Autores: Piotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti
cs.AI
Resumen
La atención dispersa ofrece una estrategia prometedora para extender las capacidades de contexto largo en Transformadores LLM, sin embargo, su viabilidad, sus compensaciones entre eficiencia y precisión, y los estudios sistemáticos de escalabilidad siguen sin explorarse. Para abordar esta brecha, realizamos una comparación cuidadosa de métodos de atención dispersa sin entrenamiento en diferentes escalas de modelos, longitudes de secuencia y niveles de dispersión, utilizando una colección diversa de tareas de secuencias largas, incluyendo algunas novedosas que se basan en lenguaje natural mientras permanecen controlables y fáciles de evaluar. Basándonos en nuestros experimentos, reportamos una serie de hallazgos clave: 1) un análisis isoFLOPS revela que, para secuencias muy largas, los modelos más grandes y altamente dispersos son preferibles a los más pequeños y densos. 2) El nivel de dispersión alcanzable mientras se garantiza estadísticamente la preservación de la precisión es mayor durante la decodificación que durante el prefilling, y se correlaciona con el tamaño del modelo en el primer caso. 3) No existe una estrategia clara que funcione mejor en todas las tareas y fases, ya que se necesitan diferentes unidades de dispersión o adaptabilidad de presupuesto para distintos escenarios. Incluso niveles moderados de dispersión a menudo resultan en una degradación significativa del rendimiento en al menos una tarea, destacando que la atención dispersa no es una solución universal. 4) Introducimos y validamos nuevas leyes de escalabilidad específicamente diseñadas para la atención dispersa, proporcionando evidencia de que nuestros hallazgos probablemente se mantengan más allá de nuestro rango de experimentos. A través de estas ideas, demostramos que la atención dispersa es una herramienta clave para mejorar las capacidades de los Transformadores LLM en el procesamiento de secuencias más largas, pero requiere una evaluación cuidadosa de las compensaciones para aplicaciones sensibles al rendimiento.
English
Sparse attention offers a promising strategy to extend long-context
capabilities in Transformer LLMs, yet its viability, its efficiency-accuracy
trade-offs, and systematic scaling studies remain unexplored. To address this
gap, we perform a careful comparison of training-free sparse attention methods
at varying model scales, sequence lengths, and sparsity levels on a diverse
collection of long-sequence tasks-including novel ones that rely on natural
language while remaining controllable and easy to evaluate. Based on our
experiments, we report a series of key findings: 1) an isoFLOPS analysis
reveals that for very long sequences, larger and highly sparse models are
preferable to smaller and dense ones. 2) The level of sparsity attainable while
statistically guaranteeing accuracy preservation is higher during decoding than
prefilling, and correlates with model size in the former. 3) There is no clear
strategy that performs best across tasks and phases, with different units of
sparsification or budget adaptivity needed for different scenarios. Even
moderate sparsity levels often result in significant performance degradation on
at least one task, highlighting that sparse attention is not a universal
solution. 4) We introduce and validate novel scaling laws specifically tailored
for sparse attention, providing evidence that our findings are likely to hold
true beyond our range of experiments. Through these insights, we demonstrate
that sparse attention is a key tool to enhance the capabilities of Transformer
LLMs for processing longer sequences, but requires careful evaluation of
trade-offs for performance-sensitive applications.Summary
AI-Generated Summary