ChatPaper.aiChatPaper

SparseLoRA: Accelerare il Fine-Tuning dei Modelli Linguistici con Spaziatura Contestuale

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

June 19, 2025
Autori: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI

Abstract

Il fine-tuning dei LLM è sia computazionalmente che in termini di memoria molto intensivo. Sebbene i metodi di fine-tuning efficiente in termini di parametri, come QLoRA e DoRA, riducano il numero di parametri addestrabili e diminuiscano l'uso della memoria, non riducono il costo computazionale. In alcuni casi, potrebbero persino rallentare il processo di fine-tuning. In questo articolo, introduciamo SparseLoRA, un metodo che accelera il fine-tuning dei LLM attraverso la sparsità contestuale. Proponiamo un leggero stimatore di sparsità SVD che non richiede addestramento e seleziona dinamicamente un sottoinsieme sparso di pesi per il calcolo della perdita e del gradiente. Inoltre, analizziamo e affrontiamo sistematicamente la sensibilità attraverso i livelli, i token e i passi di addestramento. I nostri risultati sperimentali dimostrano che SparseLoRA riduce il costo computazionale fino a 2,2 volte e un'accelerazione misurata fino a 1,6 volte, mantenendo l'accuratezza in vari compiti downstream, tra cui il ragionamento di buon senso e aritmetico, la generazione di codice e il seguimento di istruzioni.
English
Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
PDF162July 1, 2025