Mediador: Fusión LLM eficiente en memoria con menos conflictos de parámetros y enrutamiento basado en incertidumbre.

Resumen

La fusión de modelos combina Modelos de Lenguaje Grandes (LLMs) ajustados finamente en diferentes tareas en uno más robusto. Sin embargo, los conflictos de parámetros entre los modelos conducen a una degradación del rendimiento en el promedio. Mientras que el enrutamiento de modelos aborda este problema seleccionando modelos individuales durante la inferencia, impone costos excesivos de almacenamiento y computación, y no aprovecha el conocimiento común de diferentes modelos. En este trabajo, observamos que diferentes capas muestran niveles variables de conflictos de parámetros. Basándonos en esta percepción, promediamos las capas con conflictos de parámetros mínimos y utilizamos un enrutamiento de expertos a nivel de tarea novedoso para capas con conflictos significativos. Para reducir aún más los costos de almacenamiento, inspirados en la dispersión aritmética de tareas, separamos múltiples expertos ajustados finamente en un experto denso y varios expertos dispersos. Considerando las muestras fuera de distribución, seleccionamos y fusionamos expertos apropiados en función de la incertidumbre de la tarea de los datos de entrada. Realizamos experimentos exhaustivos tanto en LLaMA como en Qwen con escalas de parámetros variables, y evaluamos en tareas de razonamiento del mundo real. Los resultados demuestran que nuestro método logra consistentemente mejoras significativas en el rendimiento, al tiempo que requiere menos costos del sistema en comparación con los métodos existentes.

English

Model merging aggregates Large Language Models (LLMs) finetuned on different tasks into a stronger one. However, parameter conflicts between models leads to performance degradation in averaging. While model routing addresses this issue by selecting individual models during inference, it imposes excessive storage and compute costs, and fails to leverage the common knowledge from different models. In this work, we observe that different layers exhibit varying levels of parameter conflicts. Building on this insight, we average layers with minimal parameter conflicts and use a novel task-level expert routing for layers with significant conflicts. To further reduce storage costs, inspired by task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense expert and several sparse experts. Considering the out-of-distribution samples, we select and merge appropriate experts based on the task uncertainty of the input data. We conduct extensive experiments on both LLaMA and Qwen with varying parameter scales, and evaluate on real-world reasoning tasks. Results demonstrate that our method consistently achieves significant performance improvements while requiring less system cost compared to existing methods.

Mediador: Fusión LLM eficiente en memoria con menos conflictos de parámetros y enrutamiento basado en incertidumbre.

Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

Resumen

Support