ChatPaper.aiChatPaper

SparseLoRA: Ускорение тонкой настройки больших языковых моделей с использованием контекстуальной разреженности

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

June 19, 2025
Авторы: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI

Аннотация

Тонкая настройка больших языковых моделей (LLM) требует значительных вычислительных ресурсов и памяти. Хотя методы параметрически эффективной тонкой настройки, такие как QLoRA и DoRA, сокращают количество обучаемых параметров и снижают использование памяти, они не уменьшают вычислительные затраты. В некоторых случаях они могут даже замедлить процесс тонкой настройки. В данной статье мы представляем SparseLoRA — метод, который ускоряет тонкую настройку LLM за счет контекстной разреженности. Мы предлагаем легковесный, не требующий обучения оценщик разреженности на основе SVD, который динамически выбирает разреженное подмножество весов для вычисления потерь и градиентов. Кроме того, мы систематически анализируем и устраняем чувствительность на уровне слоев, токенов и шагов обучения. Наши экспериментальные результаты показывают, что SparseLoRA снижает вычислительные затраты до 2.2 раз и обеспечивает измеренное ускорение до 1.6 раз, сохраняя точность на различных задачах, включая здравый смысл и арифметические рассуждения, генерацию кода и выполнение инструкций.
English
Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
PDF122July 1, 2025