Mediador: Fusión LLM eficiente en memoria con menos conflictos de parámetros y enrutamiento basado en incertidumbre.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
February 6, 2025
Autores: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI
Resumen
La fusión de modelos combina Modelos de Lenguaje Grandes (LLMs) ajustados finamente en diferentes tareas en uno más robusto. Sin embargo, los conflictos de parámetros entre los modelos conducen a una degradación del rendimiento en el promedio. Mientras que el enrutamiento de modelos aborda este problema seleccionando modelos individuales durante la inferencia, impone costos excesivos de almacenamiento y computación, y no aprovecha el conocimiento común de diferentes modelos. En este trabajo, observamos que diferentes capas muestran niveles variables de conflictos de parámetros. Basándonos en esta percepción, promediamos las capas con conflictos de parámetros mínimos y utilizamos un enrutamiento de expertos a nivel de tarea novedoso para capas con conflictos significativos. Para reducir aún más los costos de almacenamiento, inspirados en la dispersión aritmética de tareas, separamos múltiples expertos ajustados finamente en un experto denso y varios expertos dispersos. Considerando las muestras fuera de distribución, seleccionamos y fusionamos expertos apropiados en función de la incertidumbre de la tarea de los datos de entrada. Realizamos experimentos exhaustivos tanto en LLaMA como en Qwen con escalas de parámetros variables, y evaluamos en tareas de razonamiento del mundo real. Los resultados demuestran que nuestro método logra consistentemente mejoras significativas en el rendimiento, al tiempo que requiere menos costos del sistema en comparación con los métodos existentes.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different
tasks into a stronger one. However, parameter conflicts between models leads to
performance degradation in averaging. While model routing addresses this issue
by selecting individual models during inference, it imposes excessive storage
and compute costs, and fails to leverage the common knowledge from different
models. In this work, we observe that different layers exhibit varying levels
of parameter conflicts. Building on this insight, we average layers with
minimal parameter conflicts and use a novel task-level expert routing for
layers with significant conflicts. To further reduce storage costs, inspired by
task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense
expert and several sparse experts. Considering the out-of-distribution samples,
we select and merge appropriate experts based on the task uncertainty of the
input data. We conduct extensive experiments on both LLaMA and Qwen with
varying parameter scales, and evaluate on real-world reasoning tasks. Results
demonstrate that our method consistently achieves significant performance
improvements while requiring less system cost compared to existing methods.Summary
AI-Generated Summary