ChatPaper.aiChatPaper

Esquisse Fédérée LoRA : Ajustement Fin Collaboratif sur Appareil de Grands Modèles de Langage

Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models

January 31, 2025
Auteurs: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton
cs.AI

Résumé

L'ajustement fin des grands modèles de langage (GML) sur les appareils suscite un intérêt croissant. Des travaux récents ont fusionné des techniques d'adaptation à faible rang (Low-rank adaptation - LoRA) avec un affinage fédéré pour atténuer les défis liés aux tailles de modèle des appareils et à la rareté des données. Cependant, l'hétérogénéité des ressources computationnelles reste un goulot d'étranglement critique : bien que les modules de rang supérieur améliorent généralement les performances, les capacités variables des appareils limitent la plage de rangs réalisables de LoRA. Les approches existantes visant à résoudre ce problème manquent soit de justification analytique, soit imposent des surcharges computationnelles supplémentaires, laissant ainsi un large espace pour une solution efficace et théoriquement fondée. Pour relever ces défis, nous proposons LoRA par esquisses fédérées (FSLoRA), qui exploite un mécanisme d'esquisses pour permettre aux appareils de mettre à jour sélectivement des sous-matrices des modules LoRA globaux entretenus par le serveur. En ajustant les ratios d'esquisses, qui déterminent les rangs des sous-matrices sur les appareils, FSLoRA s'adapte de manière flexible aux contraintes de communication et computation spécifiques aux appareils. Nous fournissons une analyse de convergence rigoureuse de FSLoRA qui caractérise comment les ratios d'esquisses affectent le taux de convergence. À travers des expériences approfondies sur plusieurs ensembles de données et modèles de GML, nous démontrons la performance supérieure de FSLoRA par rapport à diverses références.
English
Fine-tuning large language models (LLMs) on devices is attracting increasing interest. Recent works have fused low-rank adaptation (LoRA) techniques with federated fine-tuning to mitigate challenges associated with device model sizes and data scarcity. Still, the heterogeneity of computational resources remains a critical bottleneck: while higher-rank modules generally enhance performance, varying device capabilities constrain LoRA's feasible rank range. Existing approaches attempting to resolve this issue either lack analytical justification or impose additional computational overhead, leaving a wide gap for an efficient and theoretically-grounded solution. To address these challenges, we propose federated sketching LoRA (FSLoRA), which leverages a sketching mechanism to enable devices to selectively update submatrices of global LoRA modules maintained by the server. By adjusting the sketching ratios, which determine the ranks of the submatrices on the devices, FSLoRA flexibly adapts to device-specific communication and computational constraints. We provide a rigorous convergence analysis of FSLoRA that characterizes how the sketching ratios affect the convergence rate. Through comprehensive experiments on multiple datasets and LLM models, we demonstrate FSLoRA's superior performance compared to various baselines.

Summary

AI-Generated Summary

PDF43February 5, 2025