Медиатор: Слияние LLM с эффективным использованием памяти с меньшим количеством конфликтующих параметров и маршрутизацией на основе неопределенности.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
February 6, 2025
Авторы: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI
Аннотация
Слияние моделей объединяет крупные языковые модели (LLM), донастроенные для различных задач, в более мощную. Однако конфликты параметров между моделями приводят к снижению производительности при усреднении. В то время как маршрутизация моделей решает эту проблему путем выбора отдельных моделей во время вывода, она накладывает избыточные затраты на хранение и вычисления, и не использует общие знания из различных моделей. В данной работе мы замечаем, что различные слои проявляют различные уровни конфликтов параметров. Основываясь на этом наблюдении, мы усредняем слои с минимальными конфликтами параметров и используем новую маршрутизацию экспертов на уровне задач для слоев с значительными конфликтами. Для дальнейшего снижения затрат на хранение, вдохновленные арифметической разреженностью задач, мы разделяем несколько донастроенных экспертов на плотного эксперта и несколько разреженных экспертов. Учитывая выборки вне распределения, мы выбираем и объединяем соответствующих экспертов на основе неопределенности задачи входных данных. Мы проводим обширные эксперименты как на LLaMA, так и на Qwen с различными масштабами параметров и оцениваем на реальных задачах рассуждения. Результаты показывают, что наш метод последовательно достигает значительного улучшения производительности, требуя меньших системных затрат по сравнению с существующими методами.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different
tasks into a stronger one. However, parameter conflicts between models leads to
performance degradation in averaging. While model routing addresses this issue
by selecting individual models during inference, it imposes excessive storage
and compute costs, and fails to leverage the common knowledge from different
models. In this work, we observe that different layers exhibit varying levels
of parameter conflicts. Building on this insight, we average layers with
minimal parameter conflicts and use a novel task-level expert routing for
layers with significant conflicts. To further reduce storage costs, inspired by
task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense
expert and several sparse experts. Considering the out-of-distribution samples,
we select and merge appropriate experts based on the task uncertainty of the
input data. We conduct extensive experiments on both LLaMA and Qwen with
varying parameter scales, and evaluate on real-world reasoning tasks. Results
demonstrate that our method consistently achieves significant performance
improvements while requiring less system cost compared to existing methods.Summary
AI-Generated Summary