ChatPaper.aiChatPaper

Слияние больших языковых моделей на основе активации.

Activation-Informed Merging of Large Language Models

February 4, 2025
Авторы: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
cs.AI

Аннотация

Слияние моделей, метод, который объединяет параметры и вложения нескольких тонко настроенных больших языковых моделей (LLM), предлагает многообещающий подход к улучшению производительности модели на различных задачах при сохранении вычислительной эффективности. В данной статье представлена техника слияния, основанная на активации (AIM), которая интегрирует информацию из пространства активации LLM в процесс слияния для улучшения производительности и устойчивости. AIM разработана как гибкое, дополняющее решение, применимое к любому существующему методу слияния. Она нацелена на сохранение важных весов базовой модели, опираясь на принципы непрерывного обучения (CL) и сжатия модели. Используя калибровочный набор, не зависящий от задачи, AIM выборочно придает приоритет важным весам во время слияния. Мы эмпирически демонстрируем, что AIM значительно улучшает производительность объединенных моделей на нескольких бенчмарках. Наши результаты показывают, что учет информации из пространства активации может привести к значительным усовершенствованиям в стратегиях слияния моделей для LLM с увеличением производительности на бенчмарках до 40\%.
English
Model merging, a method that combines the parameters and embeddings of multiple fine-tuned large language models (LLMs), offers a promising approach to enhance model performance across various tasks while maintaining computational efficiency. This paper introduces Activation-Informed Merging (AIM), a technique that integrates the information from the activation space of LLMs into the merging process to improve performance and robustness. AIM is designed as a flexible, complementary solution that is applicable to any existing merging method. It aims to preserve critical weights from the base model, drawing on principles from continual learning~(CL) and model compression. Utilizing a task-agnostic calibration set, AIM selectively prioritizes essential weights during merging. We empirically demonstrate that AIM significantly enhances the performance of merged models across multiple benchmarks. Our findings suggest that considering the activation-space information can provide substantial advancements in the model merging strategies for LLMs with up to 40\% increase in benchmark performance.

Summary

AI-Generated Summary

PDF62February 6, 2025