ChatPaper.aiChatPaper

SparseLoRA: 컨텍스트 스파시티를 활용한 LLM 파인튜닝 가속화

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

June 19, 2025
저자: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI

초록

LLM(Large Language Model) 파인튜닝은 계산 및 메모리 측면에서 모두 많은 자원을 요구합니다. QLoRA나 DoRA와 같은 파라미터 효율적 파인튜닝 방법은 학습 가능한 파라미터 수를 줄이고 메모리 사용량을 낮추지만, 계산 비용을 감소시키지는 못합니다. 경우에 따라 이 방법들은 오히려 파인튜닝 속도를 저하시킬 수도 있습니다. 본 논문에서는 컨텍스트 스파시티(contextual sparsity)를 통해 LLM 파인튜닝을 가속화하는 SparseLoRA 방법을 소개합니다. 우리는 손실 및 그래디언트 계산을 위해 동적으로 스파스 가중치 서브셋을 선택하는 경량화된 학습 불필요 SVD 스파시티 추정기를 제안합니다. 또한, 레이어, 토큰, 학습 단계에 걸친 민감도를 체계적으로 분석하고 해결합니다. 실험 결과, SparseLoRA는 계산 비용을 최대 2.2배 감소시키고 측정된 속도 향상을 최대 1.6배 달성하면서도 상식 및 산술 추론, 코드 생성, 지시 사항 수행 등 다양한 다운스트림 작업에서 정확도를 유지합니다.
English
Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
PDF112July 1, 2025