FedNano: Verso un'ottimizzazione federata leggera per modelli linguistici multimodali preaddestrati di grandi dimensioni
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models
June 12, 2025
Autori: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) eccellono in compiti come il ragionamento multimodale e il recupero cross-modale, ma affrontano sfide di implementazione in scenari reali a causa della distribuzione dei dati multimodali e dei rigorosi requisiti di privacy. Il Federated Learning (FL) offre una soluzione consentendo l'addestramento collaborativo dei modelli senza centralizzare i dati. Tuttavia, realizzare il FL per gli MLLMs presenta sfide significative, tra cui elevate esigenze computazionali, capacità limitata dei client, costi di comunicazione sostanziali e dati eterogenei dei client. I metodi FL esistenti presuppongono la distribuzione lato client di modelli completi, un presupposto che non regge per gli MLLMs di grande scala a causa delle loro dimensioni massicce e delle esigenze di comunicazione. Per affrontare queste limitazioni, proponiamo FedNano, il primo framework FL che centralizza il LLM sul server introducendo NanoEdge, un modulo leggero per l'adattamento specifico del client. NanoEdge utilizza encoder specifici per modalità, connettori e NanoAdattatori addestrabili con adattamento a basso rango. Questo design elimina la necessità di distribuire il LLM sui client, riducendo lo storage lato client del 95% e limitando l'overhead di comunicazione a solo lo 0,01% dei parametri del modello. Trasmettendo solo aggiornamenti compatti dei NanoAdattatori, FedNano gestisce dati eterogenei dei client e vincoli di risorse preservando la privacy. Gli esperimenti dimostrano che FedNano supera i precedenti baseline FL, colmando il divario tra la scala degli MLLMs e la fattibilità del FL, e abilitando sistemi di AI multimodale scalabili e decentralizzati.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal
reasoning and cross-modal retrieval but face deployment challenges in
real-world scenarios due to distributed multimodal data and strict privacy
requirements. Federated Learning (FL) offers a solution by enabling
collaborative model training without centralizing data. However, realizing FL
for MLLMs presents significant challenges, including high computational
demands, limited client capacity, substantial communication costs, and
heterogeneous client data. Existing FL methods assume client-side deployment of
full models, an assumption that breaks down for large-scale MLLMs due to their
massive size and communication demands. To address these limitations, we
propose FedNano, the first FL framework that centralizes the LLM on the server
while introducing NanoEdge, a lightweight module for client-specific
adaptation. NanoEdge employs modality-specific encoders, connectors, and
trainable NanoAdapters with low-rank adaptation. This design eliminates the
need to deploy LLM on clients, reducing client-side storage by 95%, and
limiting communication overhead to only 0.01% of the model parameters. By
transmitting only compact NanoAdapter updates, FedNano handles heterogeneous
client data and resource constraints while preserving privacy. Experiments
demonstrate that FedNano outperforms prior FL baselines, bridging the gap
between MLLM scale and FL feasibility, and enabling scalable, decentralized
multimodal AI systems.