ChatPaper.aiChatPaper

SparseLoRA: Acelerando o Ajuste Fino de LLMs com Esparsidade Contextual

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

June 19, 2025
Autores: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI

Resumo

O ajuste fino de LLMs é intensivo tanto em termos computacionais quanto de memória. Embora métodos de ajuste fino eficientes em parâmetros, como QLoRA e DoRA, reduzam o número de parâmetros treináveis e diminuam o uso de memória, eles não reduzem o custo computacional. Em alguns casos, podem até mesmo desacelerar o ajuste fino. Neste artigo, apresentamos o SparseLoRA, um método que acelera o ajuste fino de LLMs por meio de esparsidade contextual. Propomos um estimador de esparsidade SVD leve e sem treinamento que seleciona dinamicamente um subconjunto esparso de pesos para o cálculo de perda e gradiente. Além disso, analisamos e abordamos sistematicamente a sensibilidade entre camadas, tokens e etapas de treinamento. Nossos resultados experimentais mostram que o SparseLoRA reduz o custo computacional em até 2,2 vezes e alcança uma aceleração medida de até 1,6 vezes, mantendo a precisão em várias tarefas subsequentes, incluindo raciocínio de senso comum e aritmético, geração de código e seguimento de instruções.
English
Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
PDF172July 1, 2025