Fusione Informativa delle Attivazioni dei Grandi Modelli Linguistici
Activation-Informed Merging of Large Language Models
February 4, 2025
Autori: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
cs.AI
Abstract
Il merging dei modelli, un metodo che combina i parametri e gli embedding di
diversi grandi modelli linguistici raffinati (LLM), offre un approccio promettente
per migliorare le prestazioni del modello su varie attività mantenendo
l'efficienza computazionale. Questo articolo introduce il Merging Informato dall'Attivazione
(AIM), una tecnica che integra le informazioni dello spazio di attivazione dei
LLM nel processo di merging per migliorare le prestazioni e la robustezza. AIM è
progettato come una soluzione flessibile e complementare che è applicabile a qualsiasi
metodo di merging esistente. Si propone di preservare i pesi critici dal modello base,
attingendo ai principi dell'apprendimento continuo (CL) e della compressione del modello.
Utilizzando un insieme di calibrazione agnostico rispetto all'attività, AIM seleziona
selettivamente i pesi essenziali durante il merging. Dimostriamo empiricamente che
AIM migliora significativamente le prestazioni dei modelli uniti su vari
benchmark. I nostri risultati suggeriscono che considerare le informazioni dello spazio di attivazione
possa portare a progressi sostanziali nelle strategie di merging del modello per i LLM con un aumento fino al 40\% nelle prestazioni del benchmark.
English
Model merging, a method that combines the parameters and embeddings of
multiple fine-tuned large language models (LLMs), offers a promising approach
to enhance model performance across various tasks while maintaining
computational efficiency. This paper introduces Activation-Informed Merging
(AIM), a technique that integrates the information from the activation space of
LLMs into the merging process to improve performance and robustness. AIM is
designed as a flexible, complementary solution that is applicable to any
existing merging method. It aims to preserve critical weights from the base
model, drawing on principles from continual learning~(CL) and model
compression. Utilizing a task-agnostic calibration set, AIM selectively
prioritizes essential weights during merging. We empirically demonstrate that
AIM significantly enhances the performance of merged models across multiple
benchmarks. Our findings suggest that considering the activation-space
information can provide substantial advancements in the model merging
strategies for LLMs with up to 40\% increase in benchmark performance.Summary
AI-Generated Summary