Mediator: Geheugenefficiënte LLM-samenvoeging met minder parameterconflicten en op onzekerheid gebaseerde routering.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
February 6, 2025
Auteurs: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI
Samenvatting
Model merging voegt Large Language Models (LLMs) samen die zijn verfijnd voor verschillende taken tot een krachtiger geheel. Echter, parameterconflicten tussen modellen leiden tot prestatievermindering bij het gemiddeld nemen. Terwijl modelroutering dit probleem aanpakt door individuele modellen te selecteren tijdens inferentie, brengt dit hoge opslag- en rekengerelateerde kosten met zich mee en slaagt het er niet in om de gemeenschappelijke kennis van verschillende modellen te benutten. In dit werk observeren we dat verschillende lagen verschillende niveaus van parameterconflicten vertonen. Voortbouwend op deze inzichten, nemen we lagen met minimale parameterconflicten gemiddeld en maken we gebruik van een nieuw soort expertroutering op taakniveau voor lagen met aanzienlijke conflicten. Om opslagkosten verder te verminderen, geïnspireerd door taakrekenkundige spaarzaamheid, splitsen we meerdere verfijnde experts op in een dichte expert en verschillende spaarzame experts. Bij het overwegen van out-of-distribution monsters, selecteren en combineren we passende experts op basis van de taakonzekerheid van de invoergegevens. We voeren uitgebreide experimenten uit op zowel LLaMA als Qwen met variërende parameterschalen, en evalueren op real-world redeneertaken. Resultaten tonen aan dat onze methode consequent aanzienlijke prestatieverbeteringen behaalt met minder systeemkosten in vergelijking met bestaande methoden.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different
tasks into a stronger one. However, parameter conflicts between models leads to
performance degradation in averaging. While model routing addresses this issue
by selecting individual models during inference, it imposes excessive storage
and compute costs, and fails to leverage the common knowledge from different
models. In this work, we observe that different layers exhibit varying levels
of parameter conflicts. Building on this insight, we average layers with
minimal parameter conflicts and use a novel task-level expert routing for
layers with significant conflicts. To further reduce storage costs, inspired by
task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense
expert and several sparse experts. Considering the out-of-distribution samples,
we select and merge appropriate experts based on the task uncertainty of the
input data. We conduct extensive experiments on both LLaMA and Qwen with
varying parameter scales, and evaluate on real-world reasoning tasks. Results
demonstrate that our method consistently achieves significant performance
improvements while requiring less system cost compared to existing methods.Summary
AI-Generated Summary