ChatPaper.aiChatPaper

FedNano: Rumo a um Ajuste Leve Federado para Modelos de Linguagem Multimodais Pré-treinados de Grande Escala

FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

June 12, 2025
Autores: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destacam em tarefas como raciocínio multimodal e recuperação cruzada de modalidades, mas enfrentam desafios de implantação em cenários do mundo real devido à distribuição de dados multimodais e requisitos rigorosos de privacidade. O Aprendizado Federado (FL) oferece uma solução ao permitir o treinamento colaborativo de modelos sem a centralização dos dados. No entanto, a realização do FL para MLLMs apresenta desafios significativos, incluindo altas demandas computacionais, capacidade limitada dos clientes, custos substanciais de comunicação e dados heterogêneos dos clientes. Os métodos existentes de FL assumem a implantação do modelo completo no lado do cliente, uma suposição que não se sustenta para MLLMs de grande escala devido ao seu tamanho massivo e demandas de comunicação. Para abordar essas limitações, propomos o FedNano, o primeiro framework de FL que centraliza o LLM no servidor enquanto introduz o NanoEdge, um módulo leve para adaptação específica do cliente. O NanoEdge emprega codificadores específicos de modalidade, conectores e NanoAdaptadores treináveis com adaptação de baixo posto. Esse design elimina a necessidade de implantar o LLM nos clientes, reduzindo o armazenamento no lado do cliente em 95% e limitando a sobrecarga de comunicação a apenas 0,01% dos parâmetros do modelo. Ao transmitir apenas atualizações compactas dos NanoAdaptadores, o FedNano lida com dados heterogêneos dos clientes e restrições de recursos, preservando a privacidade. Experimentos demonstram que o FedNano supera as abordagens anteriores de FL, reduzindo a lacuna entre a escala dos MLLMs e a viabilidade do FL, e permitindo sistemas de IA multimodal escaláveis e descentralizados.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal reasoning and cross-modal retrieval but face deployment challenges in real-world scenarios due to distributed multimodal data and strict privacy requirements. Federated Learning (FL) offers a solution by enabling collaborative model training without centralizing data. However, realizing FL for MLLMs presents significant challenges, including high computational demands, limited client capacity, substantial communication costs, and heterogeneous client data. Existing FL methods assume client-side deployment of full models, an assumption that breaks down for large-scale MLLMs due to their massive size and communication demands. To address these limitations, we propose FedNano, the first FL framework that centralizes the LLM on the server while introducing NanoEdge, a lightweight module for client-specific adaptation. NanoEdge employs modality-specific encoders, connectors, and trainable NanoAdapters with low-rank adaptation. This design eliminates the need to deploy LLM on clients, reducing client-side storage by 95%, and limiting communication overhead to only 0.01% of the model parameters. By transmitting only compact NanoAdapter updates, FedNano handles heterogeneous client data and resource constraints while preserving privacy. Experiments demonstrate that FedNano outperforms prior FL baselines, bridging the gap between MLLM scale and FL feasibility, and enabling scalable, decentralized multimodal AI systems.
PDF82June 19, 2025