ChatPaper.aiChatPaper

Ferret: Ajuste Federado de Parâmetros Completo em Escala para Modelos de Linguagem Grandes

Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

September 10, 2024
Autores: Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se indispensáveis em inúmeras aplicações do mundo real. Infelizmente, ajustar esses modelos em larga escala, especialmente em ambientes federados onde a privacidade de dados e eficiência de comunicação são críticas, apresenta desafios significativos. Métodos existentes frequentemente recorrem ao ajuste eficiente de parâmetros (PEFT) para mitigar a sobrecarga de comunicação, mas isso geralmente resulta na redução da precisão do modelo. Para lidar com essas limitações, propomos o ajuste federado de todos os parâmetros em larga escala para LLMs (Ferret), o primeiro método de primeira ordem com aleatoriedade compartilhada para permitir o ajuste escalável de todos os parâmetros de LLMs em fontes de dados descentralizadas, mantendo uma precisão de modelo competitiva. Ferret alcança isso por meio de três aspectos: (1) ele emprega métodos de primeira ordem amplamente aplicados para atualizações locais eficientes; (2) projeta essas atualizações em um espaço de baixa dimensionalidade para reduzir consideravelmente a sobrecarga de comunicação; e (3) reconstrói as atualizações locais a partir desse espaço de baixa dimensionalidade com aleatoriedade compartilhada para facilitar uma agregação global eficaz de todos os parâmetros, garantindo uma convergência rápida e um desempenho final competitivo. Nossas análises teóricas rigorosas e insights, juntamente com experimentos extensivos, mostram que o Ferret melhora significativamente a escalabilidade dos métodos existentes de ajuste federado de todos os parâmetros, alcançando alta eficiência computacional, redução da sobrecarga de comunicação e rápida convergência, tudo isso mantendo uma precisão de modelo competitiva. Nossa implementação está disponível em https://github.com/allen4747/Ferret.
English
Large Language Models (LLMs) have become indispensable in numerous real-world applications. Unfortunately, fine-tuning these models at scale, especially in federated settings where data privacy and communication efficiency are critical, presents significant challenges. Existing methods often resort to parameter-efficient fine-tuning (PEFT) to mitigate communication overhead, but this typically comes at the cost of model accuracy. To address these limitations, we propose federated full-parameter tuning at scale for LLMs (Ferret), the first first-order method with shared randomness to enable scalable full-parameter tuning of LLMs across decentralized data sources while maintaining competitive model accuracy. Ferret accomplishes this through three aspects: (1) it employs widely applied first-order methods for efficient local updates; (2) it projects these updates into a low-dimensional space to considerably reduce communication overhead; and (3) it reconstructs local updates from this low-dimensional space with shared randomness to facilitate effective full-parameter global aggregation, ensuring fast convergence and competitive final performance. Our rigorous theoretical analyses and insights along with extensive experiments, show that Ferret significantly enhances the scalability of existing federated full-parameter tuning approaches by achieving high computational efficiency, reduced communication overhead, and fast convergence, all while maintaining competitive model accuracy. Our implementation is available at https://github.com/allen4747/Ferret.

Summary

AI-Generated Summary

PDF162November 16, 2024