FedNano: В направлении облегчённой федеративной настройки предобученных мультимодальных больших языковых моделей
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models
June 12, 2025
Авторы: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокие результаты в задачах, таких как мультимодальное рассуждение и кросс-модальный поиск, однако сталкиваются с трудностями при развертывании в реальных сценариях из-за распределенных мультимодальных данных и строгих требований к конфиденциальности. Федеративное обучение (FL) предлагает решение, позволяя совместное обучение моделей без централизации данных. Однако реализация FL для MLLMs сопряжена с серьезными вызовами, включая высокие вычислительные требования, ограниченные возможности клиентов, значительные затраты на связь и неоднородность данных клиентов. Существующие методы FL предполагают развертывание полных моделей на стороне клиента, что становится невозможным для крупномасштабных MLLMs из-за их огромного размера и требований к передаче данных. Для преодоления этих ограничений мы предлагаем FedNano — первый FL-фреймворк, который централизует языковую модель на сервере, вводя NanoEdge — легковесный модуль для адаптации под конкретных клиентов. NanoEdge использует модально-специфичные кодировщики, соединители и обучаемые NanoAdapters с низкоранговой адаптацией. Такой подход устраняет необходимость развертывания языковой модели на клиентах, сокращая объем хранилища на стороне клиента на 95% и ограничивая накладные расходы на связь всего 0,01% параметров модели. Передавая только компактные обновления NanoAdapter, FedNano справляется с неоднородностью данных клиентов и ограниченными ресурсами, сохраняя конфиденциальность. Эксперименты показывают, что FedNano превосходит предыдущие FL-базовые подходы, сокращая разрыв между масштабом MLLMs и реализуемостью FL, и обеспечивая масштабируемые децентрализованные мультимодальные системы ИИ.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal
reasoning and cross-modal retrieval but face deployment challenges in
real-world scenarios due to distributed multimodal data and strict privacy
requirements. Federated Learning (FL) offers a solution by enabling
collaborative model training without centralizing data. However, realizing FL
for MLLMs presents significant challenges, including high computational
demands, limited client capacity, substantial communication costs, and
heterogeneous client data. Existing FL methods assume client-side deployment of
full models, an assumption that breaks down for large-scale MLLMs due to their
massive size and communication demands. To address these limitations, we
propose FedNano, the first FL framework that centralizes the LLM on the server
while introducing NanoEdge, a lightweight module for client-specific
adaptation. NanoEdge employs modality-specific encoders, connectors, and
trainable NanoAdapters with low-rank adaptation. This design eliminates the
need to deploy LLM on clients, reducing client-side storage by 95%, and
limiting communication overhead to only 0.01% of the model parameters. By
transmitting only compact NanoAdapter updates, FedNano handles heterogeneous
client data and resource constraints while preserving privacy. Experiments
demonstrate that FedNano outperforms prior FL baselines, bridging the gap
between MLLM scale and FL feasibility, and enabling scalable, decentralized
multimodal AI systems.