ChatPaper.aiChatPaper

FedNano: Hacia un Ajuste Ligero Federado para Modelos de Lenguaje Multimodales Preentrenados de Gran Escala

FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

June 12, 2025
Autores: Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) destacan en tareas como el razonamiento multimodal y la recuperación cruzada de modalidades, pero enfrentan desafíos de implementación en escenarios del mundo real debido a la distribución de datos multimodales y los estrictos requisitos de privacidad. El Aprendizaje Federado (FL, por sus siglas en inglés) ofrece una solución al permitir el entrenamiento colaborativo de modelos sin centralizar los datos. Sin embargo, implementar FL para MLLMs presenta desafíos significativos, incluyendo altas demandas computacionales, capacidad limitada en los clientes, costos sustanciales de comunicación y datos heterogéneos entre clientes. Los métodos existentes de FL asumen la implementación de modelos completos en el lado del cliente, una suposición que no se sostiene para MLLMs a gran escala debido a su tamaño masivo y demandas de comunicación. Para abordar estas limitaciones, proponemos FedNano, el primer marco de FL que centraliza el modelo de lenguaje (LLM) en el servidor mientras introduce NanoEdge, un módulo ligero para la adaptación específica del cliente. NanoEdge emplea codificadores específicos por modalidad, conectores y NanoAdaptadores entrenables con adaptación de bajo rango. Este diseño elimina la necesidad de implementar el LLM en los clientes, reduciendo el almacenamiento en el cliente en un 95% y limitando la sobrecarga de comunicación a solo el 0.01% de los parámetros del modelo. Al transmitir únicamente actualizaciones compactas de los NanoAdaptadores, FedNano maneja datos heterogéneos entre clientes y restricciones de recursos mientras preserva la privacidad. Los experimentos demuestran que FedNano supera a los enfoques basados en FL anteriores, cerrando la brecha entre la escala de los MLLMs y la viabilidad del FL, y permitiendo sistemas de IA multimodal escalables y descentralizados.
English
Multimodal Large Language Models (MLLMs) excel in tasks like multimodal reasoning and cross-modal retrieval but face deployment challenges in real-world scenarios due to distributed multimodal data and strict privacy requirements. Federated Learning (FL) offers a solution by enabling collaborative model training without centralizing data. However, realizing FL for MLLMs presents significant challenges, including high computational demands, limited client capacity, substantial communication costs, and heterogeneous client data. Existing FL methods assume client-side deployment of full models, an assumption that breaks down for large-scale MLLMs due to their massive size and communication demands. To address these limitations, we propose FedNano, the first FL framework that centralizes the LLM on the server while introducing NanoEdge, a lightweight module for client-specific adaptation. NanoEdge employs modality-specific encoders, connectors, and trainable NanoAdapters with low-rank adaptation. This design eliminates the need to deploy LLM on clients, reducing client-side storage by 95%, and limiting communication overhead to only 0.01% of the model parameters. By transmitting only compact NanoAdapter updates, FedNano handles heterogeneous client data and resource constraints while preserving privacy. Experiments demonstrate that FedNano outperforms prior FL baselines, bridging the gap between MLLM scale and FL feasibility, and enabling scalable, decentralized multimodal AI systems.
PDF72June 19, 2025