FedNano : Vers un réglage léger fédéré pour les modèles de langage multimodaux pré-entraînés de grande taille
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models
June 12, 2025
Auteurs: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI
Résumé
Les modèles de langage multimodaux de grande échelle (MLLMs) excellent dans des tâches telles que le raisonnement multimodal et la recherche intermodale, mais rencontrent des défis de déploiement dans des scénarios réels en raison de la distribution des données multimodales et des exigences strictes en matière de confidentialité. L'apprentissage fédéré (FL) offre une solution en permettant une formation collaborative des modèles sans centralisation des données. Cependant, la mise en œuvre du FL pour les MLLMs présente des défis importants, notamment des exigences computationnelles élevées, une capacité client limitée, des coûts de communication substantiels et des données client hétérogènes. Les méthodes FL existantes supposent un déploiement côté client des modèles complets, une hypothèse qui ne tient pas pour les MLLMs de grande échelle en raison de leur taille massive et de leurs exigences de communication. Pour surmonter ces limitations, nous proposons FedNano, le premier cadre FL qui centralise le modèle de langage sur le serveur tout en introduisant NanoEdge, un module léger pour l'adaptation spécifique au client. NanoEdge utilise des encodeurs spécifiques à la modalité, des connecteurs et des NanoAdapteurs entraînables avec une adaptation de faible rang. Cette conception élimine la nécessité de déployer le modèle de langage sur les clients, réduisant le stockage côté client de 95 % et limitant la surcharge de communication à seulement 0,01 % des paramètres du modèle. En transmettant uniquement des mises à jour compactes des NanoAdapteurs, FedNano gère les données client hétérogènes et les contraintes de ressources tout en préservant la confidentialité. Les expériences démontrent que FedNano surpasse les bases de référence FL précédentes, comblant l'écart entre l'échelle des MLLMs et la faisabilité du FL, et permettant des systèmes d'IA multimodaux décentralisés et évolutifs.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal
reasoning and cross-modal retrieval but face deployment challenges in
real-world scenarios due to distributed multimodal data and strict privacy
requirements. Federated Learning (FL) offers a solution by enabling
collaborative model training without centralizing data. However, realizing FL
for MLLMs presents significant challenges, including high computational
demands, limited client capacity, substantial communication costs, and
heterogeneous client data. Existing FL methods assume client-side deployment of
full models, an assumption that breaks down for large-scale MLLMs due to their
massive size and communication demands. To address these limitations, we
propose FedNano, the first FL framework that centralizes the LLM on the server
while introducing NanoEdge, a lightweight module for client-specific
adaptation. NanoEdge employs modality-specific encoders, connectors, and
trainable NanoAdapters with low-rank adaptation. This design eliminates the
need to deploy LLM on clients, reducing client-side storage by 95%, and
limiting communication overhead to only 0.01% of the model parameters. By
transmitting only compact NanoAdapter updates, FedNano handles heterogeneous
client data and resource constraints while preserving privacy. Experiments
demonstrate that FedNano outperforms prior FL baselines, bridging the gap
between MLLM scale and FL feasibility, and enabling scalable, decentralized
multimodal AI systems.