ChatPaper.aiChatPaper

SparseLoRA : Accélération du réglage fin des LLM grâce à la parcimonie contextuelle

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

June 19, 2025
Auteurs: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
cs.AI

Résumé

Le réglage fin des LLM est à la fois coûteux en calcul et en mémoire. Bien que les méthodes de réglage fin à efficacité paramétrique, telles que QLoRA et DoRA, réduisent le nombre de paramètres entraînables et diminuent l'utilisation de la mémoire, elles ne réduisent pas le coût computationnel. Dans certains cas, elles peuvent même ralentir le réglage fin. Dans cet article, nous présentons SparseLoRA, une méthode qui accélère le réglage fin des LLM grâce à la parcimonie contextuelle. Nous proposons un estimateur de parcimonie SVD léger et sans entraînement qui sélectionne dynamiquement un sous-ensemble parcimonieux de poids pour le calcul de la perte et du gradient. De plus, nous analysons et traitons systématiquement la sensibilité à travers les couches, les tokens et les étapes d'entraînement. Nos résultats expérimentaux montrent que SparseLoRA réduit le coût computationnel jusqu'à 2,2 fois et offre une accélération mesurée allant jusqu'à 1,6 fois, tout en maintenant la précision sur diverses tâches en aval, incluant le raisonnement de bon sens et arithmétique, la génération de code et le suivi d'instructions.
English
Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
PDF122July 1, 2025