Слияние больших языковых моделей на основе активации.
Activation-Informed Merging of Large Language Models
February 4, 2025
Авторы: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
cs.AI
Аннотация
Слияние моделей, метод, который объединяет параметры и вложения нескольких тонко настроенных больших языковых моделей (LLM), предлагает многообещающий подход к улучшению производительности модели на различных задачах при сохранении вычислительной эффективности. В данной статье представлена техника слияния, основанная на активации (AIM), которая интегрирует информацию из пространства активации LLM в процесс слияния для улучшения производительности и устойчивости. AIM разработана как гибкое, дополняющее решение, применимое к любому существующему методу слияния. Она нацелена на сохранение важных весов базовой модели, опираясь на принципы непрерывного обучения (CL) и сжатия модели. Используя калибровочный набор, не зависящий от задачи, AIM выборочно придает приоритет важным весам во время слияния. Мы эмпирически демонстрируем, что AIM значительно улучшает производительность объединенных моделей на нескольких бенчмарках. Наши результаты показывают, что учет информации из пространства активации может привести к значительным усовершенствованиям в стратегиях слияния моделей для LLM с увеличением производительности на бенчмарках до 40\%.
English
Model merging, a method that combines the parameters and embeddings of
multiple fine-tuned large language models (LLMs), offers a promising approach
to enhance model performance across various tasks while maintaining
computational efficiency. This paper introduces Activation-Informed Merging
(AIM), a technique that integrates the information from the activation space of
LLMs into the merging process to improve performance and robustness. AIM is
designed as a flexible, complementary solution that is applicable to any
existing merging method. It aims to preserve critical weights from the base
model, drawing on principles from continual learning~(CL) and model
compression. Utilizing a task-agnostic calibration set, AIM selectively
prioritizes essential weights during merging. We empirically demonstrate that
AIM significantly enhances the performance of merged models across multiple
benchmarks. Our findings suggest that considering the activation-space
information can provide substantial advancements in the model merging
strategies for LLMs with up to 40\% increase in benchmark performance.Summary
AI-Generated Summary