Médiateur : Fusion LLM efficace en mémoire avec moins de conflits de paramètres et routage basé sur l'incertitude

papers.abstract

La fusion de modèles agrège des Grands Modèles de Langage (GML) affinés sur différentes tâches en un modèle plus puissant. Cependant, les conflits de paramètres entre les modèles entraînent une dégradation des performances lors de la moyenne. Alors que le routage de modèle aborde ce problème en sélectionnant des modèles individuels lors de l'inférence, il impose des coûts de stockage et de calcul excessifs et ne parvient pas à exploiter les connaissances communes de différents modèles. Dans ce travail, nous observons que différentes couches présentent des niveaux variables de conflits de paramètres. S'appuyant sur cette observation, nous moyennons les couches avec des conflits de paramètres minimes et utilisons un nouveau routage d'experts au niveau de la tâche pour les couches présentant des conflits significatifs. Pour réduire davantage les coûts de stockage, inspirés par la parcimonie arithmétique des tâches, nous séparons plusieurs experts affinés en un expert dense et plusieurs experts épars. En tenant compte des échantillons hors distribution, nous sélectionnons et fusionnons les experts appropriés en fonction de l'incertitude de la tâche des données d'entrée. Nous menons des expériences approfondies à la fois sur LLaMA et Qwen avec des échelles de paramètres variables, et évaluons sur des tâches de raisonnement du monde réel. Les résultats montrent que notre méthode atteint systématiquement des améliorations significatives des performances tout en nécessitant moins de coûts système par rapport aux méthodes existantes.

English

Model merging aggregates Large Language Models (LLMs) finetuned on different tasks into a stronger one. However, parameter conflicts between models leads to performance degradation in averaging. While model routing addresses this issue by selecting individual models during inference, it imposes excessive storage and compute costs, and fails to leverage the common knowledge from different models. In this work, we observe that different layers exhibit varying levels of parameter conflicts. Building on this insight, we average layers with minimal parameter conflicts and use a novel task-level expert routing for layers with significant conflicts. To further reduce storage costs, inspired by task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense expert and several sparse experts. Considering the out-of-distribution samples, we select and merge appropriate experts based on the task uncertainty of the input data. We conduct extensive experiments on both LLaMA and Qwen with varying parameter scales, and evaluate on real-world reasoning tasks. Results demonstrate that our method consistently achieves significant performance improvements while requiring less system cost compared to existing methods.

Médiateur : Fusion LLM efficace en mémoire avec moins de conflits de paramètres et routage basé sur l'incertitude

Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

papers.abstract

Support