Esquisse Fédérée LoRA : Ajustement Fin Collaboratif sur Appareil de Grands Modèles de Langage
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models
January 31, 2025
Auteurs: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton
cs.AI
Résumé
L'ajustement fin des grands modèles de langage (GML) sur les appareils suscite un intérêt croissant. Des travaux récents ont fusionné des techniques d'adaptation à faible rang (Low-rank adaptation - LoRA) avec un affinage fédéré pour atténuer les défis liés aux tailles de modèle des appareils et à la rareté des données. Cependant, l'hétérogénéité des ressources computationnelles reste un goulot d'étranglement critique : bien que les modules de rang supérieur améliorent généralement les performances, les capacités variables des appareils limitent la plage de rangs réalisables de LoRA. Les approches existantes visant à résoudre ce problème manquent soit de justification analytique, soit imposent des surcharges computationnelles supplémentaires, laissant ainsi un large espace pour une solution efficace et théoriquement fondée. Pour relever ces défis, nous proposons LoRA par esquisses fédérées (FSLoRA), qui exploite un mécanisme d'esquisses pour permettre aux appareils de mettre à jour sélectivement des sous-matrices des modules LoRA globaux entretenus par le serveur. En ajustant les ratios d'esquisses, qui déterminent les rangs des sous-matrices sur les appareils, FSLoRA s'adapte de manière flexible aux contraintes de communication et computation spécifiques aux appareils. Nous fournissons une analyse de convergence rigoureuse de FSLoRA qui caractérise comment les ratios d'esquisses affectent le taux de convergence. À travers des expériences approfondies sur plusieurs ensembles de données et modèles de GML, nous démontrons la performance supérieure de FSLoRA par rapport à diverses références.
English
Fine-tuning large language models (LLMs) on devices is attracting increasing
interest. Recent works have fused low-rank adaptation (LoRA) techniques with
federated fine-tuning to mitigate challenges associated with device model sizes
and data scarcity. Still, the heterogeneity of computational resources remains
a critical bottleneck: while higher-rank modules generally enhance performance,
varying device capabilities constrain LoRA's feasible rank range. Existing
approaches attempting to resolve this issue either lack analytical
justification or impose additional computational overhead, leaving a wide gap
for an efficient and theoretically-grounded solution. To address these
challenges, we propose federated sketching LoRA (FSLoRA), which leverages a
sketching mechanism to enable devices to selectively update submatrices of
global LoRA modules maintained by the server. By adjusting the sketching
ratios, which determine the ranks of the submatrices on the devices, FSLoRA
flexibly adapts to device-specific communication and computational constraints.
We provide a rigorous convergence analysis of FSLoRA that characterizes how the
sketching ratios affect the convergence rate. Through comprehensive experiments
on multiple datasets and LLM models, we demonstrate FSLoRA's superior
performance compared to various baselines.Summary
AI-Generated Summary