FedNano: В направлении облегчённой федеративной настройки предобученных мультимодальных больших языковых моделей

Аннотация

Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокие результаты в задачах, таких как мультимодальное рассуждение и кросс-модальный поиск, однако сталкиваются с трудностями при развертывании в реальных сценариях из-за распределенных мультимодальных данных и строгих требований к конфиденциальности. Федеративное обучение (FL) предлагает решение, позволяя совместное обучение моделей без централизации данных. Однако реализация FL для MLLMs сопряжена с серьезными вызовами, включая высокие вычислительные требования, ограниченные возможности клиентов, значительные затраты на связь и неоднородность данных клиентов. Существующие методы FL предполагают развертывание полных моделей на стороне клиента, что становится невозможным для крупномасштабных MLLMs из-за их огромного размера и требований к передаче данных. Для преодоления этих ограничений мы предлагаем FedNano — первый FL-фреймворк, который централизует языковую модель на сервере, вводя NanoEdge — легковесный модуль для адаптации под конкретных клиентов. NanoEdge использует модально-специфичные кодировщики, соединители и обучаемые NanoAdapters с низкоранговой адаптацией. Такой подход устраняет необходимость развертывания языковой модели на клиентах, сокращая объем хранилища на стороне клиента на 95% и ограничивая накладные расходы на связь всего 0,01% параметров модели. Передавая только компактные обновления NanoAdapter, FedNano справляется с неоднородностью данных клиентов и ограниченными ресурсами, сохраняя конфиденциальность. Эксперименты показывают, что FedNano превосходит предыдущие FL-базовые подходы, сокращая разрыв между масштабом MLLMs и реализуемостью FL, и обеспечивая масштабируемые децентрализованные мультимодальные системы ИИ.

English

Multimodal Large Language Models (MLLMs) excel in tasks like multimodal reasoning and cross-modal retrieval but face deployment challenges in real-world scenarios due to distributed multimodal data and strict privacy requirements. Federated Learning (FL) offers a solution by enabling collaborative model training without centralizing data. However, realizing FL for MLLMs presents significant challenges, including high computational demands, limited client capacity, substantial communication costs, and heterogeneous client data. Existing FL methods assume client-side deployment of full models, an assumption that breaks down for large-scale MLLMs due to their massive size and communication demands. To address these limitations, we propose FedNano, the first FL framework that centralizes the LLM on the server while introducing NanoEdge, a lightweight module for client-specific adaptation. NanoEdge employs modality-specific encoders, connectors, and trainable NanoAdapters with low-rank adaptation. This design eliminates the need to deploy LLM on clients, reducing client-side storage by 95%, and limiting communication overhead to only 0.01% of the model parameters. By transmitting only compact NanoAdapter updates, FedNano handles heterogeneous client data and resource constraints while preserving privacy. Experiments demonstrate that FedNano outperforms prior FL baselines, bridging the gap between MLLM scale and FL feasibility, and enabling scalable, decentralized multimodal AI systems.

FedNano: В направлении облегчённой федеративной настройки предобученных мультимодальных больших языковых моделей

FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Аннотация

Support