SparseLoRA: Aceleración del ajuste fino de LLM mediante esparcidad contextual
SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity
June 19, 2025
Autores: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI
Resumen
El ajuste fino de LLMs es intensivo tanto en términos computacionales como de memoria. Si bien los métodos de ajuste fino eficientes en parámetros, como QLoRA y DoRA, reducen el número de parámetros entrenables y disminuyen el uso de memoria, no reducen el costo computacional. En algunos casos, incluso pueden ralentizar el ajuste fino. En este artículo, presentamos SparseLoRA, un método que acelera el ajuste fino de LLMs mediante la esparcididad contextual. Proponemos un estimador de esparcididad SVD ligero y sin entrenamiento que selecciona dinámicamente un subconjunto disperso de pesos para el cálculo de la pérdida y el gradiente. Además, analizamos y abordamos sistemáticamente la sensibilidad a través de capas, tokens y pasos de entrenamiento. Nuestros resultados experimentales muestran que SparseLoRA reduce el costo computacional hasta 2.2 veces y logra una aceleración medida de hasta 1.6 veces, manteniendo la precisión en diversas tareas posteriores, incluyendo razonamiento de sentido común y aritmético, generación de código y seguimiento de instrucciones.
English
Fine-tuning LLMs is both computationally and memory-intensive. While
parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the
number of trainable parameters and lower memory usage, they do not decrease
computational cost. In some cases, they may even slow down fine-tuning. In this
paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning
through contextual sparsity. We propose a lightweight, training-free SVD
sparsity estimator that dynamically selects a sparse subset of weights for loss
and gradient computation. Also, we systematically analyze and address
sensitivity across layers, tokens, and training steps. Our experimental results
show that SparseLoRA reduces computational cost by up to 2.2 times and a
measured speedup of up to 1.6 times while maintaining accuracy across various
downstream tasks, including commonsense and arithmetic reasoning, code
generation, and instruction following.