ChatPaper.aiChatPaper

Fusione di Modelli con Ancore Funzionali Duali

Model Merging with Functional Dual Anchors

October 24, 2025
Autori: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI

Abstract

La fusione di modelli è una strategia efficiente di post-addestramento per integrare la conoscenza proveniente da checkpoint specializzati multipli di un modello base condiviso. I metodi esistenti operano nello spazio dei parametri, combinando i vettori di task per mitigare i conflitti, ma rimangono vincolati da inconsistenze parametriche. Proponiamo le Ancore Funzionali Doppie (FDA), un framework che modella invece lo spazio delle rappresentazioni in input. Le FDA sono input sintetici i cui gradienti indotti si allineano con i vettori di task, catturando gli spostamenti funzionali specifici per task rispetto al modello pre-addestrato. Questa prospettiva collega l'addestramento multi-task congiunto e la fusione post-hoc, offrendo sia robustezza che flessibilità. Introduciamo inoltre uno schema di inizializzazione principiato e dimostriamo che le FDA sono complementari alla fusione di modelli nello spazio dei parametri. Esperimenti esaustivi dimostrano l'efficacia delle FDA nella fusione di modelli.
English
Model merging is an efficient post-training strategy for integrating knowledge from multiple finetuned checkpoints of a shared foundation model. Existing methods operate in the parameter space, combining task vectors to mitigate conflicts, but remain constrained by parameter inconsistencies. We propose Functional Dual Anchors (FDAs), a framework that instead models the input-representation space. FDAs are synthetic inputs whose induced gradients align with task vectors, capturing task-specific functional shifts relative to the pretrained model. This perspective bridges joint multi-task training and post-hoc merging, offering both robustness and flexibility. We further introduce a principled initialization scheme and show that FDAs are complementary to parameter-space model merging. Comprehensive experiments demonstrate the effectiveness of FDAs in model merging.
PDF121December 17, 2025