Föderiertes Skizzieren LoRA: On-Device Kollaboratives Feinabstimmen großer Sprachmodelle

papers.abstract

Die Feinabstimmung großer Sprachmodelle (LLMs) auf Geräten erregt zunehmend Interesse. In jüngsten Arbeiten wurden Niederrang-Anpassungstechniken (LoRA) mit föderiertem Feintuning kombiniert, um Herausforderungen im Zusammenhang mit der Größe der Gerätemodelle und der Datenknappheit zu mildern. Dennoch bleibt die Heterogenität der Rechenressourcen ein kritischer Engpass: Während höherrangige Module im Allgemeinen die Leistung verbessern, schränken unterschiedliche Gerätefähigkeiten den möglichen Rangbereich von LoRA ein. Bestehende Ansätze zur Lösung dieses Problems fehlen entweder eine analytische Rechtfertigung oder führen zusätzlichen Rechenaufwand ein, was einen breiten Spielraum für eine effiziente und theoretisch fundierte Lösung lässt. Um diesen Herausforderungen zu begegnen, schlagen wir federiertes Skizzieren von LoRA (FSLoRA) vor, das einen Skizzierungsmechanismus nutzt, um Geräten die selektive Aktualisierung von Teilmatrizen globaler LoRA-Module zu ermöglichen, die vom Server verwaltet werden. Durch Anpassung der Skizzierungsverhältnisse, die die Ränge der Teilmatrizen auf den Geräten bestimmen, passt sich FSLoRA flexibel an gerätespezifische Kommunikations- und Rechenbeschränkungen an. Wir bieten eine strenge Konvergenzanalyse von FSLoRA an, die charakterisiert, wie die Skizzierungsverhältnisse die Konvergenzrate beeinflussen. Durch umfassende Experimente mit mehreren Datensätzen und LLM-Modellen zeigen wir die überlegene Leistung von FSLoRA im Vergleich zu verschiedenen Baselines.

English

Fine-tuning large language models (LLMs) on devices is attracting increasing interest. Recent works have fused low-rank adaptation (LoRA) techniques with federated fine-tuning to mitigate challenges associated with device model sizes and data scarcity. Still, the heterogeneity of computational resources remains a critical bottleneck: while higher-rank modules generally enhance performance, varying device capabilities constrain LoRA's feasible rank range. Existing approaches attempting to resolve this issue either lack analytical justification or impose additional computational overhead, leaving a wide gap for an efficient and theoretically-grounded solution. To address these challenges, we propose federated sketching LoRA (FSLoRA), which leverages a sketching mechanism to enable devices to selectively update submatrices of global LoRA modules maintained by the server. By adjusting the sketching ratios, which determine the ranks of the submatrices on the devices, FSLoRA flexibly adapts to device-specific communication and computational constraints. We provide a rigorous convergence analysis of FSLoRA that characterizes how the sketching ratios affect the convergence rate. Through comprehensive experiments on multiple datasets and LLM models, we demonstrate FSLoRA's superior performance compared to various baselines.

Föderiertes Skizzieren LoRA: On-Device Kollaboratives Feinabstimmen großer Sprachmodelle

Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models

papers.abstract

Support