FedNano:事前学習済みマルチモーダル大規模言語モデルのための軽量フェデレーションチューニングに向けて
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models
June 12, 2025
著者: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、マルチモーダル推論やクロスモーダル検索などのタスクにおいて優れた性能を発揮するが、分散したマルチモーダルデータと厳格なプライバシー要件のため、実世界のシナリオでの展開には課題がある。フェデレーテッドラーニング(FL)は、データを中央集約せずに協調的なモデルトレーニングを可能にする解決策を提供する。しかし、MLLMsに対するFLの実現には、高い計算要求、クライアント側の容量制限、大きな通信コスト、および異種クライアントデータといった重大な課題が存在する。既存のFL手法は、クライアント側に完全なモデルを展開することを前提としているが、大規模MLLMsの場合、その巨大なサイズと通信要求のためにこの前提が崩れる。これらの制限を解決するため、我々はFedNanoを提案する。これは、LLMをサーバー側に集中化しつつ、クライアント固有の適応のための軽量モジュールであるNanoEdgeを導入する初めてのFLフレームワークである。NanoEdgeは、モダリティ固有のエンコーダ、コネクタ、および低ランク適応を備えたトレーニング可能なNanoAdapterを採用している。この設計により、クライアント側にLLMを展開する必要がなくなり、クライアント側のストレージを95%削減し、通信オーバーヘッドをモデルパラメータのわずか0.01%に抑えることができる。コンパクトなNanoAdapterの更新のみを送信することで、FedNanoは異種クライアントデータとリソース制約を処理しつつ、プライバシーを保護する。実験により、FedNanoは既存のFLベースラインを上回り、MLLMのスケールとFLの実現可能性のギャップを埋め、スケーラブルで分散型のマルチモーダルAIシステムを可能にすることが示された。
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal
reasoning and cross-modal retrieval but face deployment challenges in
real-world scenarios due to distributed multimodal data and strict privacy
requirements. Federated Learning (FL) offers a solution by enabling
collaborative model training without centralizing data. However, realizing FL
for MLLMs presents significant challenges, including high computational
demands, limited client capacity, substantial communication costs, and
heterogeneous client data. Existing FL methods assume client-side deployment of
full models, an assumption that breaks down for large-scale MLLMs due to their
massive size and communication demands. To address these limitations, we
propose FedNano, the first FL framework that centralizes the LLM on the server
while introducing NanoEdge, a lightweight module for client-specific
adaptation. NanoEdge employs modality-specific encoders, connectors, and
trainable NanoAdapters with low-rank adaptation. This design eliminates the
need to deploy LLM on clients, reducing client-side storage by 95%, and
limiting communication overhead to only 0.01% of the model parameters. By
transmitting only compact NanoAdapter updates, FedNano handles heterogeneous
client data and resource constraints while preserving privacy. Experiments
demonstrate that FedNano outperforms prior FL baselines, bridging the gap
between MLLM scale and FL feasibility, and enabling scalable, decentralized
multimodal AI systems.