Mediatore: Fusione LLM efficiente in termini di memoria con minori conflitti di parametri e instradamento basato sull'incertezza.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
February 6, 2025
Autori: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI
Abstract
Il merging dei modelli combina i Grandi Modelli Linguistici (LLM) addestrati su differenti compiti in un'unica entità più potente. Tuttavia, i conflitti tra i parametri dei modelli portano a una degradazione delle prestazioni nell'operazione di media. Mentre il routing del modello affronta questo problema selezionando modelli individuali durante l'inferenza, esso comporta costi eccessivi di archiviazione e calcolo, e non sfrutta le conoscenze comuni dei diversi modelli. In questo lavoro, osserviamo che diversi strati mostrano livelli variabili di conflitti tra parametri. Sfruttando questa intuizione, mediare gli strati con minimi conflitti tra parametri e utilizzare un nuovo routing di esperti a livello di compito per gli strati con conflitti significativi. Per ridurre ulteriormente i costi di archiviazione, ispirandoci alla sparità aritmetica del compito, separiamo diversi esperti addestrati in un esperto denso e diversi esperti sparsi. Considerando i campioni fuori distribuzione, selezioniamo e fondiamo gli esperti appropriati in base all'incertezza del compito dei dati in ingresso. Conduciamo ampi esperimenti su entrambi LLaMA e Qwen con varie scale di parametri, e valutiamo su compiti di ragionamento del mondo reale. I risultati dimostrano che il nostro metodo ottiene costantemente significativi miglioramenti delle prestazioni richiedendo minori costi di sistema rispetto ai metodi esistenti.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different
tasks into a stronger one. However, parameter conflicts between models leads to
performance degradation in averaging. While model routing addresses this issue
by selecting individual models during inference, it imposes excessive storage
and compute costs, and fails to leverage the common knowledge from different
models. In this work, we observe that different layers exhibit varying levels
of parameter conflicts. Building on this insight, we average layers with
minimal parameter conflicts and use a novel task-level expert routing for
layers with significant conflicts. To further reduce storage costs, inspired by
task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense
expert and several sparse experts. Considering the out-of-distribution samples,
we select and merge appropriate experts based on the task uncertainty of the
input data. We conduct extensive experiments on both LLaMA and Qwen with
varying parameter scales, and evaluate on real-world reasoning tasks. Results
demonstrate that our method consistently achieves significant performance
improvements while requiring less system cost compared to existing methods.Summary
AI-Generated Summary