Mediator: Geheugenefficiënte LLM-samenvoeging met minder parameterconflicten en op onzekerheid gebaseerde routering.

Samenvatting

Model merging voegt Large Language Models (LLMs) samen die zijn verfijnd voor verschillende taken tot een krachtiger geheel. Echter, parameterconflicten tussen modellen leiden tot prestatievermindering bij het gemiddeld nemen. Terwijl modelroutering dit probleem aanpakt door individuele modellen te selecteren tijdens inferentie, brengt dit hoge opslag- en rekengerelateerde kosten met zich mee en slaagt het er niet in om de gemeenschappelijke kennis van verschillende modellen te benutten. In dit werk observeren we dat verschillende lagen verschillende niveaus van parameterconflicten vertonen. Voortbouwend op deze inzichten, nemen we lagen met minimale parameterconflicten gemiddeld en maken we gebruik van een nieuw soort expertroutering op taakniveau voor lagen met aanzienlijke conflicten. Om opslagkosten verder te verminderen, geïnspireerd door taakrekenkundige spaarzaamheid, splitsen we meerdere verfijnde experts op in een dichte expert en verschillende spaarzame experts. Bij het overwegen van out-of-distribution monsters, selecteren en combineren we passende experts op basis van de taakonzekerheid van de invoergegevens. We voeren uitgebreide experimenten uit op zowel LLaMA als Qwen met variërende parameterschalen, en evalueren op real-world redeneertaken. Resultaten tonen aan dat onze methode consequent aanzienlijke prestatieverbeteringen behaalt met minder systeemkosten in vergelijking met bestaande methoden.

English

Model merging aggregates Large Language Models (LLMs) finetuned on different tasks into a stronger one. However, parameter conflicts between models leads to performance degradation in averaging. While model routing addresses this issue by selecting individual models during inference, it imposes excessive storage and compute costs, and fails to leverage the common knowledge from different models. In this work, we observe that different layers exhibit varying levels of parameter conflicts. Building on this insight, we average layers with minimal parameter conflicts and use a novel task-level expert routing for layers with significant conflicts. To further reduce storage costs, inspired by task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense expert and several sparse experts. Considering the out-of-distribution samples, we select and merge appropriate experts based on the task uncertainty of the input data. We conduct extensive experiments on both LLaMA and Qwen with varying parameter scales, and evaluate on real-world reasoning tasks. Results demonstrate that our method consistently achieves significant performance improvements while requiring less system cost compared to existing methods.

Mediator: Geheugenefficiënte LLM-samenvoeging met minder parameterconflicten en op onzekerheid gebaseerde routering.

Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

Samenvatting

Support