Fusion de modèles avec ancres fonctionnelles duales
Model Merging with Functional Dual Anchors
October 24, 2025
papers.authors: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI
papers.abstract
La fusion de modèles est une stratégie efficace d'après-entraînement pour intégrer les connaissances de multiples points de contrôle spécialisés issus d'un modèle de base commun. Les méthodes existantes opèrent dans l'espace des paramètres, en combinant des vecteurs de tâche pour atténuer les conflits, mais restent limitées par les incohérences paramétriques. Nous proposons les Ancres Fonctionnelles Duales (AFD), un cadre qui modélise plutôt l'espace des représentations d'entrée. Les AFD sont des entrées synthétiques dont les gradients induits s'alignent avec les vecteurs de tâche, capturant les décalages fonctionnels spécifiques aux tâches par rapport au modèle pré-entraîné. Cette perspective fait le lien entre l'entraînement multitâche conjoint et la fusion a posteriori, offrant à la fois robustesse et flexibilité. Nous introduisons en outre un schéma d'initialisation fondé sur des principes et montrons que les AFD sont complémentaires à la fusion de modèles dans l'espace des paramètres. Des expériences approfondies démontrent l'efficacité des AFD dans la fusion de modèles.
English
Model merging is an efficient post-training strategy for integrating
knowledge from multiple finetuned checkpoints of a shared foundation model.
Existing methods operate in the parameter space, combining task vectors to
mitigate conflicts, but remain constrained by parameter inconsistencies. We
propose Functional Dual Anchors (FDAs), a framework that instead models the
input-representation space. FDAs are synthetic inputs whose induced gradients
align with task vectors, capturing task-specific functional shifts relative to
the pretrained model. This perspective bridges joint multi-task training and
post-hoc merging, offering both robustness and flexibility. We further
introduce a principled initialization scheme and show that FDAs are
complementary to parameter-space model merging. Comprehensive experiments
demonstrate the effectiveness of FDAs in model merging.