FedNano: Naar lichtgewicht federatief afstemmen voor vooraf getrainde multimodale grote taalmodellen
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models
June 12, 2025
Auteurs: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) blinken uit in taken zoals multimodale redenering en cross-modale retrievals, maar worden geconfronteerd met implementatie-uitdagingen in real-world scenario’s vanwege gedistribueerde multimodale data en strenge privacy-eisen. Federated Learning (FL) biedt een oplossing door gezamenlijke modeltraining mogelijk te maken zonder data te centraliseren. Het realiseren van FL voor MLLMs brengt echter aanzienlijke uitdagingen met zich mee, waaronder hoge rekenkundige eisen, beperkte clientcapaciteit, aanzienlijke communicatiekosten en heterogene clientdata. Bestaande FL-methoden gaan ervan uit dat volledige modellen aan de clientzijde worden geïmplementeerd, een aanname die niet opgaat voor grootschalige MLLMs vanwege hun enorme omvang en communicatiebehoeften. Om deze beperkingen aan te pakken, stellen we FedNano voor, het eerste FL-framework dat het LLM centraliseert op de server terwijl het NanoEdge introduceert, een lichtgewicht module voor client-specifieke aanpassing. NanoEdge maakt gebruik van modality-specifieke encoders, connectors en trainbare NanoAdapters met low-rank aanpassing. Dit ontwerp elimineert de noodzaak om het LLM op clients te implementeren, waardoor de opslag aan de clientzijde met 95% wordt verminderd, en de communicatie-overhead beperkt blijft tot slechts 0,01% van de modelparameters. Door alleen compacte NanoAdapter-updates te verzenden, kan FedNano omgaan met heterogene clientdata en resourcebeperkingen terwijl de privacy wordt gewaarborgd. Experimenten tonen aan dat FedNano eerdere FL-baselines overtreft, de kloof tussen de schaal van MLLMs en de haalbaarheid van FL overbrugt, en schaalbare, gedecentraliseerde multimodale AI-systemen mogelijk maakt.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal
reasoning and cross-modal retrieval but face deployment challenges in
real-world scenarios due to distributed multimodal data and strict privacy
requirements. Federated Learning (FL) offers a solution by enabling
collaborative model training without centralizing data. However, realizing FL
for MLLMs presents significant challenges, including high computational
demands, limited client capacity, substantial communication costs, and
heterogeneous client data. Existing FL methods assume client-side deployment of
full models, an assumption that breaks down for large-scale MLLMs due to their
massive size and communication demands. To address these limitations, we
propose FedNano, the first FL framework that centralizes the LLM on the server
while introducing NanoEdge, a lightweight module for client-specific
adaptation. NanoEdge employs modality-specific encoders, connectors, and
trainable NanoAdapters with low-rank adaptation. This design eliminates the
need to deploy LLM on clients, reducing client-side storage by 95%, and
limiting communication overhead to only 0.01% of the model parameters. By
transmitting only compact NanoAdapter updates, FedNano handles heterogeneous
client data and resource constraints while preserving privacy. Experiments
demonstrate that FedNano outperforms prior FL baselines, bridging the gap
between MLLM scale and FL feasibility, and enabling scalable, decentralized
multimodal AI systems.