Vermittler: Speicher-effizientes LLM-Zusammenführen mit weniger Parameterkonflikten und Routing auf Basis von Unsicherheit
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
February 6, 2025
Autoren: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI
Zusammenfassung
Die Modellzusammenführung aggregiert Large Language Models (LLMs), die auf verschiedenen Aufgaben feinabgestimmt sind, zu einem stärkeren Modell. Allerdings führen Parameterkonflikte zwischen den Modellen zu Leistungseinbußen beim Durchschnitt. Während das Modell-Routing dieses Problem durch die Auswahl einzelner Modelle während der Inferenz löst, bringt es übermäßige Speicher- und Rechenkosten mit sich und nutzt das gemeinsame Wissen aus verschiedenen Modellen nicht aus. In dieser Arbeit beobachten wir, dass verschiedene Schichten unterschiedliche Ebenen von Parameterkonflikten aufweisen. Basierend auf dieser Erkenntnis mitteln wir Schichten mit minimalen Parameterkonflikten und verwenden ein neuartiges taskbasiertes Experten-Routing für Schichten mit signifikanten Konflikten. Um die Speicherkosten weiter zu reduzieren, inspiriert von der Aufgabenarithmetik-Spärlichkeit, trennen wir mehrere feinabgestimmte Experten in einen dichten Experten und mehrere spärliche Experten auf. Unter Berücksichtigung der Out-of-Distribution-Stichproben wählen wir geeignete Experten basierend auf der Aufgabenunsicherheit der Eingabedaten aus und führen sie zusammen. Wir führen umfangreiche Experimente sowohl an LLaMA als auch an Qwen mit unterschiedlichen Parametermaßstäben durch und evaluieren sie an realen Denkaufgaben. Die Ergebnisse zeigen, dass unsere Methode konsistent signifikante Leistungsverbesserungen erzielt und dabei im Vergleich zu bestehenden Methoden weniger Systemkosten erfordert.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different
tasks into a stronger one. However, parameter conflicts between models leads to
performance degradation in averaging. While model routing addresses this issue
by selecting individual models during inference, it imposes excessive storage
and compute costs, and fails to leverage the common knowledge from different
models. In this work, we observe that different layers exhibit varying levels
of parameter conflicts. Building on this insight, we average layers with
minimal parameter conflicts and use a novel task-level expert routing for
layers with significant conflicts. To further reduce storage costs, inspired by
task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense
expert and several sparse experts. Considering the out-of-distribution samples,
we select and merge appropriate experts based on the task uncertainty of the
input data. We conduct extensive experiments on both LLaMA and Qwen with
varying parameter scales, and evaluate on real-world reasoning tasks. Results
demonstrate that our method consistently achieves significant performance
improvements while requiring less system cost compared to existing methods.Summary
AI-Generated Summary