Fusión de Modelos con Anclajes Duales Funcionales
Model Merging with Functional Dual Anchors
October 24, 2025
Autores: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI
Resumen
La fusión de modelos es una estrategia eficiente de post-entrenamiento para integrar el conocimiento de múltiples puntos de control ajustados de un modelo base compartido. Los métodos existentes operan en el espacio de parámetros, combinando vectores de tareas para mitigar conflictos, pero siguen limitados por inconsistencias paramétricas. Proponemos Anclajes Duales Funcionales (FDA), un marco que, en cambio, modela el espacio de representación de entradas. Los FDA son entradas sintéticas cuyos grados inducidos se alinean con los vectores de tareas, capturando desplazamientos funcionales específicos de cada tarea en relación con el modelo preentrenado. Esta perspectiva tiende un puente entre el entrenamiento multitarea conjunto y la fusión post-hoc, ofreciendo tanto robustez como flexibilidad. Además, presentamos un esquema de inicialización fundamentado y demostramos que los FDA son complementarios a la fusión de modelos en el espacio de parámetros. Experimentos exhaustivos demuestran la efectividad de los FDA en la fusión de modelos.
English
Model merging is an efficient post-training strategy for integrating
knowledge from multiple finetuned checkpoints of a shared foundation model.
Existing methods operate in the parameter space, combining task vectors to
mitigate conflicts, but remain constrained by parameter inconsistencies. We
propose Functional Dual Anchors (FDAs), a framework that instead models the
input-representation space. FDAs are synthetic inputs whose induced gradients
align with task vectors, capturing task-specific functional shifts relative to
the pretrained model. This perspective bridges joint multi-task training and
post-hoc merging, offering both robustness and flexibility. We further
introduce a principled initialization scheme and show that FDAs are
complementary to parameter-space model merging. Comprehensive experiments
demonstrate the effectiveness of FDAs in model merging.