Médiateur : Fusion LLM efficace en mémoire avec moins de conflits de paramètres et routage basé sur l'incertitude
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
February 6, 2025
Auteurs: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI
Résumé
La fusion de modèles agrège des Grands Modèles de Langage (GML) affinés sur différentes tâches en un modèle plus puissant. Cependant, les conflits de paramètres entre les modèles entraînent une dégradation des performances lors de la moyenne. Alors que le routage de modèle aborde ce problème en sélectionnant des modèles individuels lors de l'inférence, il impose des coûts de stockage et de calcul excessifs et ne parvient pas à exploiter les connaissances communes de différents modèles. Dans ce travail, nous observons que différentes couches présentent des niveaux variables de conflits de paramètres. S'appuyant sur cette observation, nous moyennons les couches avec des conflits de paramètres minimes et utilisons un nouveau routage d'experts au niveau de la tâche pour les couches présentant des conflits significatifs. Pour réduire davantage les coûts de stockage, inspirés par la parcimonie arithmétique des tâches, nous séparons plusieurs experts affinés en un expert dense et plusieurs experts épars. En tenant compte des échantillons hors distribution, nous sélectionnons et fusionnons les experts appropriés en fonction de l'incertitude de la tâche des données d'entrée. Nous menons des expériences approfondies à la fois sur LLaMA et Qwen avec des échelles de paramètres variables, et évaluons sur des tâches de raisonnement du monde réel. Les résultats montrent que notre méthode atteint systématiquement des améliorations significatives des performances tout en nécessitant moins de coûts système par rapport aux méthodes existantes.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different
tasks into a stronger one. However, parameter conflicts between models leads to
performance degradation in averaging. While model routing addresses this issue
by selecting individual models during inference, it imposes excessive storage
and compute costs, and fails to leverage the common knowledge from different
models. In this work, we observe that different layers exhibit varying levels
of parameter conflicts. Building on this insight, we average layers with
minimal parameter conflicts and use a novel task-level expert routing for
layers with significant conflicts. To further reduce storage costs, inspired by
task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense
expert and several sparse experts. Considering the out-of-distribution samples,
we select and merge appropriate experts based on the task uncertainty of the
input data. We conduct extensive experiments on both LLaMA and Qwen with
varying parameter scales, and evaluate on real-world reasoning tasks. Results
demonstrate that our method consistently achieves significant performance
improvements while requiring less system cost compared to existing methods.Summary
AI-Generated Summary