SparseLoRA: 컨텍스트 스파시티를 활용한 LLM 파인튜닝 가속화
SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity
June 19, 2025
저자: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI
초록
LLM(Large Language Model) 파인튜닝은 계산 및 메모리 측면에서 모두 많은 자원을 요구합니다. QLoRA나 DoRA와 같은 파라미터 효율적 파인튜닝 방법은 학습 가능한 파라미터 수를 줄이고 메모리 사용량을 낮추지만, 계산 비용을 감소시키지는 못합니다. 경우에 따라 이 방법들은 오히려 파인튜닝 속도를 저하시킬 수도 있습니다. 본 논문에서는 컨텍스트 스파시티(contextual sparsity)를 통해 LLM 파인튜닝을 가속화하는 SparseLoRA 방법을 소개합니다. 우리는 손실 및 그래디언트 계산을 위해 동적으로 스파스 가중치 서브셋을 선택하는 경량화된 학습 불필요 SVD 스파시티 추정기를 제안합니다. 또한, 레이어, 토큰, 학습 단계에 걸친 민감도를 체계적으로 분석하고 해결합니다. 실험 결과, SparseLoRA는 계산 비용을 최대 2.2배 감소시키고 측정된 속도 향상을 최대 1.6배 달성하면서도 상식 및 산술 추론, 코드 생성, 지시 사항 수행 등 다양한 다운스트림 작업에서 정확도를 유지합니다.
English
Fine-tuning LLMs is both computationally and memory-intensive. While
parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the
number of trainable parameters and lower memory usage, they do not decrease
computational cost. In some cases, they may even slow down fine-tuning. In this
paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning
through contextual sparsity. We propose a lightweight, training-free SVD
sparsity estimator that dynamically selects a sparse subset of weights for loss
and gradient computation. Also, we systematically analyze and address
sensitivity across layers, tokens, and training steps. Our experimental results
show that SparseLoRA reduces computational cost by up to 2.2 times and a
measured speedup of up to 1.6 times while maintaining accuracy across various
downstream tasks, including commonsense and arithmetic reasoning, code
generation, and instruction following.