Fusão de Modelos com Âncoras Duais Funcionais
Model Merging with Functional Dual Anchors
October 24, 2025
Autores: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI
Resumo
A fusão de modelos é uma estratégia eficiente de pós-treinamento para integrar conhecimento de múltiplos *checkpoints* ajustados de um modelo base compartilhado. Os métodos existentes operam no espaço de parâmetros, combinando vetores de tarefa para mitigar conflitos, mas permanecem limitados por inconsistências paramétricas. Propomos as Âncoras Duais Funcionais (ADFs), uma estrutura que, em vez disso, modela o espaço de representação de entrada. As ADFs são entradas sintéticas cujos gradientes induzidos se alinham com os vetores de tarefa, capturando desvios funcionais específicos da tarefa em relação ao modelo pré-treinado. Esta perspectiva estabelece uma ponte entre o treinamento multitarefa conjunto e a fusão *pós-hoc*, oferecendo tanto robustez quanto flexibilidade. Introduzimos ainda um esquema de inicialização fundamentado e demonstramos que as ADFs são complementares à fusão de modelos no espaço de parâmetros. Experimentos abrangentes demonstram a eficácia das ADFs na fusão de modelos.
English
Model merging is an efficient post-training strategy for integrating
knowledge from multiple finetuned checkpoints of a shared foundation model.
Existing methods operate in the parameter space, combining task vectors to
mitigate conflicts, but remain constrained by parameter inconsistencies. We
propose Functional Dual Anchors (FDAs), a framework that instead models the
input-representation space. FDAs are synthetic inputs whose induced gradients
align with task vectors, capturing task-specific functional shifts relative to
the pretrained model. This perspective bridges joint multi-task training and
post-hoc merging, offering both robustness and flexibility. We further
introduce a principled initialization scheme and show that FDAs are
complementary to parameter-space model merging. Comprehensive experiments
demonstrate the effectiveness of FDAs in model merging.