ChatPaper.aiChatPaper

Разреженный рубеж: компромиссы разреженного внимания в трансформерных языковых моделях

The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

April 24, 2025
Авторы: Piotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti
cs.AI

Аннотация

Разреженное внимание представляет собой перспективную стратегию для расширения возможностей обработки длинных контекстов в трансформерных языковых моделях (LLM), однако его жизнеспособность, компромиссы между эффективностью и точностью, а также систематические исследования масштабирования остаются недостаточно изученными. Чтобы восполнить этот пробел, мы проводим тщательное сравнение методов разреженного внимания, не требующих обучения, на различных масштабах моделей, длинах последовательностей и уровнях разреженности для разнообразных задач с длинными последовательностями, включая новые задачи, которые опираются на естественный язык, оставаясь при этом контролируемыми и легко оцениваемыми. На основе наших экспериментов мы представляем ряд ключевых выводов: 1) анализ isoFLOPS показывает, что для очень длинных последовательностей предпочтительны более крупные и высокоразреженные модели по сравнению с меньшими и плотными. 2) Уровень разреженности, достижимый при статистической гарантии сохранения точности, выше на этапе декодирования, чем на этапе предварительного заполнения, и коррелирует с размером модели в первом случае. 3) Не существует универсальной стратегии, которая бы наилучшим образом работала для всех задач и этапов, требуя различных единиц разрежения или адаптивности бюджета для разных сценариев. Даже умеренные уровни разреженности часто приводят к значительному ухудшению производительности хотя бы в одной задаче, что подчеркивает, что разреженное внимание не является универсальным решением. 4) Мы вводим и подтверждаем новые законы масштабирования, специально разработанные для разреженного внимания, что свидетельствует о том, что наши выводы, вероятно, останутся справедливыми за пределами нашего диапазона экспериментов. Благодаря этим инсайтам мы демонстрируем, что разреженное внимание является ключевым инструментом для расширения возможностей трансформерных LLM в обработке более длинных последовательностей, но требует тщательной оценки компромиссов для производительно-чувствительных приложений.
English
Sparse attention offers a promising strategy to extend long-context capabilities in Transformer LLMs, yet its viability, its efficiency-accuracy trade-offs, and systematic scaling studies remain unexplored. To address this gap, we perform a careful comparison of training-free sparse attention methods at varying model scales, sequence lengths, and sparsity levels on a diverse collection of long-sequence tasks-including novel ones that rely on natural language while remaining controllable and easy to evaluate. Based on our experiments, we report a series of key findings: 1) an isoFLOPS analysis reveals that for very long sequences, larger and highly sparse models are preferable to smaller and dense ones. 2) The level of sparsity attainable while statistically guaranteeing accuracy preservation is higher during decoding than prefilling, and correlates with model size in the former. 3) There is no clear strategy that performs best across tasks and phases, with different units of sparsification or budget adaptivity needed for different scenarios. Even moderate sparsity levels often result in significant performance degradation on at least one task, highlighting that sparse attention is not a universal solution. 4) We introduce and validate novel scaling laws specifically tailored for sparse attention, providing evidence that our findings are likely to hold true beyond our range of experiments. Through these insights, we demonstrate that sparse attention is a key tool to enhance the capabilities of Transformer LLMs for processing longer sequences, but requires careful evaluation of trade-offs for performance-sensitive applications.

Summary

AI-Generated Summary

PDF123April 28, 2025