ChatPaper.aiChatPaper

SparseLoRA: Versnelling van LLM-fijnafstemming met contextuele sparsiteit

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

June 19, 2025
Auteurs: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI

Samenvatting

Het finetunen van LLM's is zowel rekenkundig als geheugenintensief. Hoewel parameter-efficiënte finetunemethoden, zoals QLoRA en DoRA, het aantal trainbare parameters verminderen en het geheugengebruik verlagen, verlagen ze niet de rekenkosten. In sommige gevallen kunnen ze het finetunen zelfs vertragen. In dit artikel introduceren we SparseLoRA, een methode die het finetunen van LLM's versnelt door middel van contextuele sparsity. We stellen een lichtgewicht, trainingsvrije SVD-sparsityschatter voor die dynamisch een sparse subset van gewichten selecteert voor verlies- en gradientberekening. Daarnaast analyseren en behandelen we systematisch gevoeligheid over lagen, tokens en trainingsstappen heen. Onze experimentele resultaten tonen aan dat SparseLoRA de rekenkosten tot 2,2 keer vermindert en een gemeten versnelling tot 1,6 keer bereikt, terwijl de nauwkeurigheid behouden blijft over verschillende downstream taken, waaronder gezond verstand en rekenkundig redeneren, codegeneratie en instructieopvolging.
English
Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
PDF172July 1, 2025