Boceto Federado LoRA: Ajuste Fino Colaborativo en Dispositivos de Modelos de Lenguaje Grandes
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models
January 31, 2025
Autores: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton
cs.AI
Resumen
El ajuste fino de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) en dispositivos está atrayendo un interés creciente. Trabajos recientes han fusionado técnicas de adaptación de bajo rango (LoRA) con ajuste fino federado para mitigar los desafíos asociados con los tamaños de modelo de dispositivo y la escasez de datos. Sin embargo, la heterogeneidad de los recursos computacionales sigue siendo un cuello de botella crítico: si bien los módulos de rango superior generalmente mejoran el rendimiento, las capacidades variables de los dispositivos restringen el rango de rango factible de LoRA. Los enfoques existentes que intentan resolver este problema carecen de justificación analítica o imponen una sobrecarga computacional adicional, dejando un amplio margen para una solución eficiente y fundamentada teóricamente. Para abordar estos desafíos, proponemos LoRA de esbozo federado (FSLoRA), que aprovecha un mecanismo de esbozo para permitir que los dispositivos actualicen selectivamente submatrices de módulos globales de LoRA mantenidos por el servidor. Al ajustar las proporciones de esbozo, que determinan los rangos de las submatrices en los dispositivos, FSLoRA se adapta de manera flexible a las restricciones de comunicación y computacionales específicas del dispositivo. Proporcionamos un análisis riguroso de convergencia de FSLoRA que caracteriza cómo las proporciones de esbozo afectan la tasa de convergencia. A través de experimentos exhaustivos en múltiples conjuntos de datos y modelos LLM, demostramos el rendimiento superior de FSLoRA en comparación con varias líneas de base.
English
Fine-tuning large language models (LLMs) on devices is attracting increasing
interest. Recent works have fused low-rank adaptation (LoRA) techniques with
federated fine-tuning to mitigate challenges associated with device model sizes
and data scarcity. Still, the heterogeneity of computational resources remains
a critical bottleneck: while higher-rank modules generally enhance performance,
varying device capabilities constrain LoRA's feasible rank range. Existing
approaches attempting to resolve this issue either lack analytical
justification or impose additional computational overhead, leaving a wide gap
for an efficient and theoretically-grounded solution. To address these
challenges, we propose federated sketching LoRA (FSLoRA), which leverages a
sketching mechanism to enable devices to selectively update submatrices of
global LoRA modules maintained by the server. By adjusting the sketching
ratios, which determine the ranks of the submatrices on the devices, FSLoRA
flexibly adapts to device-specific communication and computational constraints.
We provide a rigorous convergence analysis of FSLoRA that characterizes how the
sketching ratios affect the convergence rate. Through comprehensive experiments
on multiple datasets and LLM models, we demonstrate FSLoRA's superior
performance compared to various baselines.Summary
AI-Generated Summary