Föderiertes Skizzieren LoRA: On-Device Kollaboratives Feinabstimmen großer Sprachmodelle
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models
January 31, 2025
Autoren: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton
cs.AI
Zusammenfassung
Die Feinabstimmung großer Sprachmodelle (LLMs) auf Geräten erregt zunehmend Interesse. In jüngsten Arbeiten wurden Niederrang-Anpassungstechniken (LoRA) mit föderiertem Feintuning kombiniert, um Herausforderungen im Zusammenhang mit der Größe der Gerätemodelle und der Datenknappheit zu mildern. Dennoch bleibt die Heterogenität der Rechenressourcen ein kritischer Engpass: Während höherrangige Module im Allgemeinen die Leistung verbessern, schränken unterschiedliche Gerätefähigkeiten den möglichen Rangbereich von LoRA ein. Bestehende Ansätze zur Lösung dieses Problems fehlen entweder eine analytische Rechtfertigung oder führen zusätzlichen Rechenaufwand ein, was einen breiten Spielraum für eine effiziente und theoretisch fundierte Lösung lässt. Um diesen Herausforderungen zu begegnen, schlagen wir federiertes Skizzieren von LoRA (FSLoRA) vor, das einen Skizzierungsmechanismus nutzt, um Geräten die selektive Aktualisierung von Teilmatrizen globaler LoRA-Module zu ermöglichen, die vom Server verwaltet werden. Durch Anpassung der Skizzierungsverhältnisse, die die Ränge der Teilmatrizen auf den Geräten bestimmen, passt sich FSLoRA flexibel an gerätespezifische Kommunikations- und Rechenbeschränkungen an. Wir bieten eine strenge Konvergenzanalyse von FSLoRA an, die charakterisiert, wie die Skizzierungsverhältnisse die Konvergenzrate beeinflussen. Durch umfassende Experimente mit mehreren Datensätzen und LLM-Modellen zeigen wir die überlegene Leistung von FSLoRA im Vergleich zu verschiedenen Baselines.
English
Fine-tuning large language models (LLMs) on devices is attracting increasing
interest. Recent works have fused low-rank adaptation (LoRA) techniques with
federated fine-tuning to mitigate challenges associated with device model sizes
and data scarcity. Still, the heterogeneity of computational resources remains
a critical bottleneck: while higher-rank modules generally enhance performance,
varying device capabilities constrain LoRA's feasible rank range. Existing
approaches attempting to resolve this issue either lack analytical
justification or impose additional computational overhead, leaving a wide gap
for an efficient and theoretically-grounded solution. To address these
challenges, we propose federated sketching LoRA (FSLoRA), which leverages a
sketching mechanism to enable devices to selectively update submatrices of
global LoRA modules maintained by the server. By adjusting the sketching
ratios, which determine the ranks of the submatrices on the devices, FSLoRA
flexibly adapts to device-specific communication and computational constraints.
We provide a rigorous convergence analysis of FSLoRA that characterizes how the
sketching ratios affect the convergence rate. Through comprehensive experiments
on multiple datasets and LLM models, we demonstrate FSLoRA's superior
performance compared to various baselines.Summary
AI-Generated Summary