Fusione di Modelli con Ancore Funzionali Duali
Model Merging with Functional Dual Anchors
October 24, 2025
Autori: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI
Abstract
La fusione di modelli è una strategia efficiente di post-addestramento per integrare la conoscenza proveniente da checkpoint specializzati multipli di un modello base condiviso. I metodi esistenti operano nello spazio dei parametri, combinando i vettori di task per mitigare i conflitti, ma rimangono vincolati da inconsistenze parametriche. Proponiamo le Ancore Funzionali Doppie (FDA), un framework che modella invece lo spazio delle rappresentazioni in input. Le FDA sono input sintetici i cui gradienti indotti si allineano con i vettori di task, catturando gli spostamenti funzionali specifici per task rispetto al modello pre-addestrato. Questa prospettiva collega l'addestramento multi-task congiunto e la fusione post-hoc, offrendo sia robustezza che flessibilità. Introduciamo inoltre uno schema di inizializzazione principiato e dimostriamo che le FDA sono complementari alla fusione di modelli nello spazio dei parametri. Esperimenti esaustivi dimostrano l'efficacia delle FDA nella fusione di modelli.
English
Model merging is an efficient post-training strategy for integrating
knowledge from multiple finetuned checkpoints of a shared foundation model.
Existing methods operate in the parameter space, combining task vectors to
mitigate conflicts, but remain constrained by parameter inconsistencies. We
propose Functional Dual Anchors (FDAs), a framework that instead models the
input-representation space. FDAs are synthetic inputs whose induced gradients
align with task vectors, capturing task-specific functional shifts relative to
the pretrained model. This perspective bridges joint multi-task training and
post-hoc merging, offering both robustness and flexibility. We further
introduce a principled initialization scheme and show that FDAs are
complementary to parameter-space model merging. Comprehensive experiments
demonstrate the effectiveness of FDAs in model merging.