ChatPaper.aiChatPaper

Ferret: Ottimizzazione Federata a Tutti i Parametri su Larga Scala per Grandi Modelli Linguistici

Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

September 10, 2024
Autori: Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu
cs.AI

Abstract

I Large Language Models (LLM) sono diventati indispensabili in numerose applicazioni del mondo reale. Purtroppo, ottimizzare questi modelli su larga scala, specialmente in contesti federati dove la privacy dei dati e l'efficienza della comunicazione sono cruciali, presenta significativi ostacoli. I metodi esistenti spesso ricorrono all'ottimizzazione efficiente dei parametri (PEFT) per mitigare il sovraccarico della comunicazione, ma ciò di solito comporta un costo in termini di accuratezza del modello. Per affrontare queste limitazioni, proponiamo il tuning completo dei parametri su larga scala per LLM (Ferret), il primo metodo di primo ordine con casualità condivisa per consentire un ottimizzazione scalabile dei parametri completi di LLM tra fonti di dati decentralizzate mantenendo nel contempo un'accuratezza del modello competitiva. Ferret raggiunge questo obiettivo attraverso tre aspetti: (1) utilizza metodi di primo ordine ampiamente applicati per aggiornamenti locali efficienti; (2) proietta questi aggiornamenti in uno spazio a bassa dimensione per ridurre considerevolmente il sovraccarico della comunicazione; e (3) ricostruisce gli aggiornamenti locali da questo spazio a bassa dimensione con casualità condivisa per facilitare un'aggregazione globale efficace dei parametri completi, garantendo una rapida convergenza e un'accuratezza finale competitiva. Le nostre rigorose analisi teoriche e intuizioni insieme a estesi esperimenti dimostrano che Ferret migliora significativamente la scalabilità degli approcci esistenti per il tuning completo dei parametri federati, raggiungendo un'elevata efficienza computazionale, una riduzione del sovraccarico della comunicazione e una rapida convergenza, il tutto mantenendo un'accuratezza del modello competitiva. La nostra implementazione è disponibile su https://github.com/allen4747/Ferret.
English
Large Language Models (LLMs) have become indispensable in numerous real-world applications. Unfortunately, fine-tuning these models at scale, especially in federated settings where data privacy and communication efficiency are critical, presents significant challenges. Existing methods often resort to parameter-efficient fine-tuning (PEFT) to mitigate communication overhead, but this typically comes at the cost of model accuracy. To address these limitations, we propose federated full-parameter tuning at scale for LLMs (Ferret), the first first-order method with shared randomness to enable scalable full-parameter tuning of LLMs across decentralized data sources while maintaining competitive model accuracy. Ferret accomplishes this through three aspects: (1) it employs widely applied first-order methods for efficient local updates; (2) it projects these updates into a low-dimensional space to considerably reduce communication overhead; and (3) it reconstructs local updates from this low-dimensional space with shared randomness to facilitate effective full-parameter global aggregation, ensuring fast convergence and competitive final performance. Our rigorous theoretical analyses and insights along with extensive experiments, show that Ferret significantly enhances the scalability of existing federated full-parameter tuning approaches by achieving high computational efficiency, reduced communication overhead, and fast convergence, all while maintaining competitive model accuracy. Our implementation is available at https://github.com/allen4747/Ferret.

Summary

AI-Generated Summary

PDF162November 16, 2024