FedNano: Auf dem Weg zu leichtgewichtiger Federated Tuning für vortrainierte multimodale Large Language Models
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models
June 12, 2025
Autoren: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) zeichnen sich durch hervorragende Leistungen in Aufgaben wie multimodalem Denken und cross-modaler Suche aus, stoßen jedoch bei der Bereitstellung in realen Szenarien auf Herausforderungen aufgrund verteilter multimodaler Daten und strenger Datenschutzanforderungen. Federated Learning (FL) bietet eine Lösung, indem es die gemeinsame Modellschulung ermöglicht, ohne Daten zu zentralisieren. Die Umsetzung von FL für MLLMs birgt jedoch erhebliche Herausforderungen, darunter hohe Rechenanforderungen, begrenzte Client-Kapazitäten, erhebliche Kommunikationskosten und heterogene Client-Daten. Bisherige FL-Methoden gehen davon aus, dass vollständige Modelle auf der Client-Seite bereitgestellt werden, eine Annahme, die bei großskaligen MLLMs aufgrund ihrer enormen Größe und Kommunikationsanforderungen nicht haltbar ist. Um diese Einschränkungen zu überwinden, schlagen wir FedNano vor, das erste FL-Framework, das das LLM auf dem Server zentralisiert, während es NanoEdge, ein leichtgewichtiges Modul für client-spezifische Anpassungen, einführt. NanoEdge verwendet modalitätsspezifische Encoder, Konnektoren und trainierbare NanoAdapter mit Low-Rank-Adaptation. Dieser Entwurf eliminiert die Notwendigkeit, das LLM auf den Clients zu installieren, reduziert den Speicherbedarf auf der Client-Seite um 95 % und begrenzt den Kommunikationsaufwand auf nur 0,01 % der Modellparameter. Durch die Übertragung nur kompakter NanoAdapter-Updates bewältigt FedNano heterogene Client-Daten und Ressourcenbeschränkungen, während der Datenschutz gewahrt bleibt. Experimente zeigen, dass FedNano bisherige FL-Baselines übertrifft, die Lücke zwischen der Skalierbarkeit von MLLMs und der Machbarkeit von FL schließt und skalierbare, dezentralisierte multimodale KI-Systeme ermöglicht.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal
reasoning and cross-modal retrieval but face deployment challenges in
real-world scenarios due to distributed multimodal data and strict privacy
requirements. Federated Learning (FL) offers a solution by enabling
collaborative model training without centralizing data. However, realizing FL
for MLLMs presents significant challenges, including high computational
demands, limited client capacity, substantial communication costs, and
heterogeneous client data. Existing FL methods assume client-side deployment of
full models, an assumption that breaks down for large-scale MLLMs due to their
massive size and communication demands. To address these limitations, we
propose FedNano, the first FL framework that centralizes the LLM on the server
while introducing NanoEdge, a lightweight module for client-specific
adaptation. NanoEdge employs modality-specific encoders, connectors, and
trainable NanoAdapters with low-rank adaptation. This design eliminates the
need to deploy LLM on clients, reducing client-side storage by 95%, and
limiting communication overhead to only 0.01% of the model parameters. By
transmitting only compact NanoAdapter updates, FedNano handles heterogeneous
client data and resource constraints while preserving privacy. Experiments
demonstrate that FedNano outperforms prior FL baselines, bridging the gap
between MLLM scale and FL feasibility, and enabling scalable, decentralized
multimodal AI systems.