A Fronteira Esparsa: Compensações da Atenção Esparsa em Transformers de Grande Escala
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
April 24, 2025
Autores: Piotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti
cs.AI
Resumo
A atenção esparsa oferece uma estratégia promissora para estender as capacidades de contexto longo em LLMs baseados em Transformers, mas sua viabilidade, seus trade-offs entre eficiência e precisão, e estudos sistemáticos de escalonamento permanecem inexplorados. Para abordar essa lacuna, realizamos uma comparação cuidadosa de métodos de atenção esparsa sem treinamento em diferentes escalas de modelos, comprimentos de sequência e níveis de esparsidade em uma coleção diversificada de tarefas de sequência longa — incluindo novas que dependem de linguagem natural, mas permanecem controláveis e fáceis de avaliar. Com base em nossos experimentos, relatamos uma série de descobertas-chave: 1) Uma análise isoFLOPS revela que, para sequências muito longas, modelos maiores e altamente esparsos são preferíveis a modelos menores e densos. 2) O nível de esparsidade alcançável enquanto se garante estatisticamente a preservação da precisão é maior durante a decodificação do que no preenchimento, e correlaciona-se com o tamanho do modelo no primeiro caso. 3) Não há uma estratégia clara que funcione melhor em todas as tarefas e fases, com diferentes unidades de esparsificação ou adaptabilidade de orçamento necessárias para diferentes cenários. Mesmo níveis moderados de esparsidade frequentemente resultam em degradação significativa de desempenho em pelo menos uma tarefa, destacando que a atenção esparsa não é uma solução universal. 4) Introduzimos e validamos novas leis de escalonamento especificamente adaptadas para atenção esparsa, fornecendo evidências de que nossas descobertas provavelmente se manterão válidas além do escopo de nossos experimentos. Através desses insights, demonstramos que a atenção esparsa é uma ferramenta essencial para aprimorar as capacidades de LLMs baseados em Transformers para processar sequências mais longas, mas requer uma avaliação cuidadosa dos trade-offs para aplicações sensíveis ao desempenho.
English
Sparse attention offers a promising strategy to extend long-context
capabilities in Transformer LLMs, yet its viability, its efficiency-accuracy
trade-offs, and systematic scaling studies remain unexplored. To address this
gap, we perform a careful comparison of training-free sparse attention methods
at varying model scales, sequence lengths, and sparsity levels on a diverse
collection of long-sequence tasks-including novel ones that rely on natural
language while remaining controllable and easy to evaluate. Based on our
experiments, we report a series of key findings: 1) an isoFLOPS analysis
reveals that for very long sequences, larger and highly sparse models are
preferable to smaller and dense ones. 2) The level of sparsity attainable while
statistically guaranteeing accuracy preservation is higher during decoding than
prefilling, and correlates with model size in the former. 3) There is no clear
strategy that performs best across tasks and phases, with different units of
sparsification or budget adaptivity needed for different scenarios. Even
moderate sparsity levels often result in significant performance degradation on
at least one task, highlighting that sparse attention is not a universal
solution. 4) We introduce and validate novel scaling laws specifically tailored
for sparse attention, providing evidence that our findings are likely to hold
true beyond our range of experiments. Through these insights, we demonstrate
that sparse attention is a key tool to enhance the capabilities of Transformer
LLMs for processing longer sequences, but requires careful evaluation of
trade-offs for performance-sensitive applications.Summary
AI-Generated Summary