ChatPaper.aiChatPaper

Mediador: Fusão LLM Eficiente em Memória com Menos Conflitos de Parâmetros e Roteamento Baseado em Incerteza

Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

February 6, 2025
Autores: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
cs.AI

Resumo

A fusão de modelos agrega Modelos de Linguagem de Grande Escala (LLMs) ajustados em diferentes tarefas em um mais robusto. No entanto, conflitos de parâmetros entre os modelos levam à degradação de desempenho na média. Enquanto o roteamento de modelos aborda esse problema selecionando modelos individuais durante a inferência, ele impõe custos excessivos de armazenamento e computação e não aproveita o conhecimento comum de diferentes modelos. Neste trabalho, observamos que diferentes camadas apresentam níveis variados de conflitos de parâmetros. Com base nessa percepção, médias são feitas em camadas com conflitos mínimos de parâmetros e é utilizado um novo roteamento de especialistas em nível de tarefa para camadas com conflitos significativos. Para reduzir ainda mais os custos de armazenamento, inspirados na esparsidade aritmética de tarefas, separamos vários especialistas ajustados em um especialista denso e vários especialistas esparsos. Considerando as amostras fora da distribuição, selecionamos e fundimos especialistas apropriados com base na incerteza da tarefa dos dados de entrada. Realizamos experimentos extensivos em LLaMA e Qwen com escalas de parâmetros variadas e avaliamos em tarefas de raciocínio do mundo real. Os resultados demonstram que nosso método consistentemente alcança melhorias significativas de desempenho, exigindo menos custo do sistema em comparação com métodos existentes.
English
Model merging aggregates Large Language Models (LLMs) finetuned on different tasks into a stronger one. However, parameter conflicts between models leads to performance degradation in averaging. While model routing addresses this issue by selecting individual models during inference, it imposes excessive storage and compute costs, and fails to leverage the common knowledge from different models. In this work, we observe that different layers exhibit varying levels of parameter conflicts. Building on this insight, we average layers with minimal parameter conflicts and use a novel task-level expert routing for layers with significant conflicts. To further reduce storage costs, inspired by task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense expert and several sparse experts. Considering the out-of-distribution samples, we select and merge appropriate experts based on the task uncertainty of the input data. We conduct extensive experiments on both LLaMA and Qwen with varying parameter scales, and evaluate on real-world reasoning tasks. Results demonstrate that our method consistently achieves significant performance improvements while requiring less system cost compared to existing methods.

Summary

AI-Generated Summary

PDF42February 13, 2025