Aktivierungsinformierte Zusammenführung großer Sprachmodelle
Activation-Informed Merging of Large Language Models
February 4, 2025
Autoren: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
cs.AI
Zusammenfassung
Die Zusammenführung von Modellen, eine Methode, die die Parameter und Einbettungen mehrerer feinabgestimmter großer Sprachmodelle kombiniert, bietet einen vielversprechenden Ansatz, um die Leistung von Modellen in verschiedenen Aufgaben zu verbessern, während die Rechenleistung erhalten bleibt. Dieses Papier stellt Activation-Informed Merging (AIM) vor, eine Technik, die die Informationen aus dem Aktivierungsbereich der Sprachmodelle in den Zusammenführungsprozess integriert, um die Leistung und Robustheit zu verbessern. AIM ist als flexible, ergänzende Lösung konzipiert, die auf jede bestehende Zusammenführungsmethode anwendbar ist. Sie zielt darauf ab, wichtige Gewichte aus dem Basismodell zu erhalten und greift dabei auf Prinzipien des kontinuierlichen Lernens (CL) und der Modellkompression zurück. Durch die Verwendung eines aufgabenneutralen Kalibrierungssatzes priorisiert AIM selektiv wesentliche Gewichte während der Zusammenführung. Wir zeigen empirisch, dass AIM die Leistung von zusammengeführten Modellen signifikant über mehrere Benchmarks hinweg verbessert. Unsere Ergebnisse legen nahe, dass die Berücksichtigung von Informationen aus dem Aktivierungsbereich bedeutende Fortschritte in den Strategien zur Modellzusammenführung für große Sprachmodelle bieten kann, mit einer Steigerung der Benchmark-Leistung um bis zu 40\%.
English
Model merging, a method that combines the parameters and embeddings of
multiple fine-tuned large language models (LLMs), offers a promising approach
to enhance model performance across various tasks while maintaining
computational efficiency. This paper introduces Activation-Informed Merging
(AIM), a technique that integrates the information from the activation space of
LLMs into the merging process to improve performance and robustness. AIM is
designed as a flexible, complementary solution that is applicable to any
existing merging method. It aims to preserve critical weights from the base
model, drawing on principles from continual learning~(CL) and model
compression. Utilizing a task-agnostic calibration set, AIM selectively
prioritizes essential weights during merging. We empirically demonstrate that
AIM significantly enhances the performance of merged models across multiple
benchmarks. Our findings suggest that considering the activation-space
information can provide substantial advancements in the model merging
strategies for LLMs with up to 40\% increase in benchmark performance.Summary
AI-Generated Summary