SparseLoRA: Beschleunigung der Feinabstimmung von LLM durch kontextuelle Sparsity
SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity
June 19, 2025
Autoren: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI
Zusammenfassung
Das Feinabstimmen von LLMs ist sowohl rechen- als auch speicherintensiv. Während parameter-effiziente Feinabstimmungsmethoden wie QLoRA und DoRA die Anzahl der trainierbaren Parameter reduzieren und den Speicherverbrauch senken, verringern sie nicht die Rechenkosten. In einigen Fällen können sie sogar die Feinabstimmung verlangsamen. In diesem Artikel stellen wir SparseLoRA vor, eine Methode, die die Feinabstimmung von LLMs durch kontextuelle Sparsität beschleunigt. Wir schlagen einen leichten, trainingsfreien SVD-Sparsitäts-Schätzer vor, der dynamisch eine spärliche Teilmenge von Gewichten für die Verlust- und Gradientenberechnung auswählt. Zudem analysieren und adressieren wir systematisch die Empfindlichkeit über Schichten, Tokens und Trainingsschritte hinweg. Unsere experimentellen Ergebnisse zeigen, dass SparseLoRA die Rechenkosten um bis zu das 2,2-fache reduziert und eine gemessene Beschleunigung von bis zu dem 1,6-fachen erreicht, während die Genauigkeit über verschiedene Downstream-Aufgaben hinweg erhalten bleibt, einschließlich gesundem Menschenverstand und arithmetischem Denken, Code-Generierung und Befolgen von Anweisungen.
English
Fine-tuning LLMs is both computationally and memory-intensive. While
parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the
number of trainable parameters and lower memory usage, they do not decrease
computational cost. In some cases, they may even slow down fine-tuning. In this
paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning
through contextual sparsity. We propose a lightweight, training-free SVD
sparsity estimator that dynamically selects a sparse subset of weights for loss
and gradient computation. Also, we systematically analyze and address
sensitivity across layers, tokens, and training steps. Our experimental results
show that SparseLoRA reduces computational cost by up to 2.2 times and a
measured speedup of up to 1.6 times while maintaining accuracy across various
downstream tasks, including commonsense and arithmetic reasoning, code
generation, and instruction following.