Fusion de grands modèles de langage informée par l'activation
Activation-Informed Merging of Large Language Models
February 4, 2025
Auteurs: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
cs.AI
Résumé
La fusion de modèles, une méthode qui combine les paramètres et les embeddings de plusieurs grands modèles de langage fine-tunés (LLM), offre une approche prometteuse pour améliorer les performances du modèle sur diverses tâches tout en maintenant l'efficacité computationnelle. Cet article présente la Fusion Informée par l'Activation (AIM), une technique qui intègre les informations de l'espace d'activation des LLM dans le processus de fusion pour améliorer les performances et la robustesse. AIM est conçu comme une solution flexible et complémentaire applicable à toute méthode de fusion existante. Il vise à préserver les poids critiques du modèle de base, s'inspirant des principes de l'apprentissage continu (CL) et de la compression de modèle. En utilisant un ensemble de calibration agnostique à la tâche, AIM priorise sélectivement les poids essentiels lors de la fusion. Nous démontrons empiriquement qu'AIM améliore significativement les performances des modèles fusionnés sur plusieurs benchmarks. Nos résultats suggèrent que la prise en compte des informations de l'espace d'activation peut apporter des avancées substantielles dans les stratégies de fusion de modèles pour les LLM, avec une augmentation des performances des benchmarks allant jusqu'à 40\%.
English
Model merging, a method that combines the parameters and embeddings of
multiple fine-tuned large language models (LLMs), offers a promising approach
to enhance model performance across various tasks while maintaining
computational efficiency. This paper introduces Activation-Informed Merging
(AIM), a technique that integrates the information from the activation space of
LLMs into the merging process to improve performance and robustness. AIM is
designed as a flexible, complementary solution that is applicable to any
existing merging method. It aims to preserve critical weights from the base
model, drawing on principles from continual learning~(CL) and model
compression. Utilizing a task-agnostic calibration set, AIM selectively
prioritizes essential weights during merging. We empirically demonstrate that
AIM significantly enhances the performance of merged models across multiple
benchmarks. Our findings suggest that considering the activation-space
information can provide substantial advancements in the model merging
strategies for LLMs with up to 40\% increase in benchmark performance.Summary
AI-Generated Summary