Fusion de grands modèles de langage informée par l'activation

papers.abstract

La fusion de modèles, une méthode qui combine les paramètres et les embeddings de plusieurs grands modèles de langage fine-tunés (LLM), offre une approche prometteuse pour améliorer les performances du modèle sur diverses tâches tout en maintenant l'efficacité computationnelle. Cet article présente la Fusion Informée par l'Activation (AIM), une technique qui intègre les informations de l'espace d'activation des LLM dans le processus de fusion pour améliorer les performances et la robustesse. AIM est conçu comme une solution flexible et complémentaire applicable à toute méthode de fusion existante. Il vise à préserver les poids critiques du modèle de base, s'inspirant des principes de l'apprentissage continu (CL) et de la compression de modèle. En utilisant un ensemble de calibration agnostique à la tâche, AIM priorise sélectivement les poids essentiels lors de la fusion. Nous démontrons empiriquement qu'AIM améliore significativement les performances des modèles fusionnés sur plusieurs benchmarks. Nos résultats suggèrent que la prise en compte des informations de l'espace d'activation peut apporter des avancées substantielles dans les stratégies de fusion de modèles pour les LLM, avec une augmentation des performances des benchmarks allant jusqu'à 40\%.

English

Model merging, a method that combines the parameters and embeddings of multiple fine-tuned large language models (LLMs), offers a promising approach to enhance model performance across various tasks while maintaining computational efficiency. This paper introduces Activation-Informed Merging (AIM), a technique that integrates the information from the activation space of LLMs into the merging process to improve performance and robustness. AIM is designed as a flexible, complementary solution that is applicable to any existing merging method. It aims to preserve critical weights from the base model, drawing on principles from continual learning~(CL) and model compression. Utilizing a task-agnostic calibration set, AIM selectively prioritizes essential weights during merging. We empirically demonstrate that AIM significantly enhances the performance of merged models across multiple benchmarks. Our findings suggest that considering the activation-space information can provide substantial advancements in the model merging strategies for LLMs with up to 40\% increase in benchmark performance.

Fusion de grands modèles de langage informée par l'activation

Activation-Informed Merging of Large Language Models

papers.abstract

Support