ChatPaper.aiChatPaper

Fusão de Modelos com Âncoras Duais Funcionais

Model Merging with Functional Dual Anchors

October 24, 2025
Autores: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI

Resumo

A fusão de modelos é uma estratégia eficiente de pós-treinamento para integrar conhecimento de múltiplos *checkpoints* ajustados de um modelo base compartilhado. Os métodos existentes operam no espaço de parâmetros, combinando vetores de tarefa para mitigar conflitos, mas permanecem limitados por inconsistências paramétricas. Propomos as Âncoras Duais Funcionais (ADFs), uma estrutura que, em vez disso, modela o espaço de representação de entrada. As ADFs são entradas sintéticas cujos gradientes induzidos se alinham com os vetores de tarefa, capturando desvios funcionais específicos da tarefa em relação ao modelo pré-treinado. Esta perspectiva estabelece uma ponte entre o treinamento multitarefa conjunto e a fusão *pós-hoc*, oferecendo tanto robustez quanto flexibilidade. Introduzimos ainda um esquema de inicialização fundamentado e demonstramos que as ADFs são complementares à fusão de modelos no espaço de parâmetros. Experimentos abrangentes demonstram a eficácia das ADFs na fusão de modelos.
English
Model merging is an efficient post-training strategy for integrating knowledge from multiple finetuned checkpoints of a shared foundation model. Existing methods operate in the parameter space, combining task vectors to mitigate conflicts, but remain constrained by parameter inconsistencies. We propose Functional Dual Anchors (FDAs), a framework that instead models the input-representation space. FDAs are synthetic inputs whose induced gradients align with task vectors, capturing task-specific functional shifts relative to the pretrained model. This perspective bridges joint multi-task training and post-hoc merging, offering both robustness and flexibility. We further introduce a principled initialization scheme and show that FDAs are complementary to parameter-space model merging. Comprehensive experiments demonstrate the effectiveness of FDAs in model merging.
PDF121December 17, 2025