ChatPaper.aiChatPaper

Fusión de Modelos con Anclajes Duales Funcionales

Model Merging with Functional Dual Anchors

October 24, 2025
Autores: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI

Resumen

La fusión de modelos es una estrategia eficiente de post-entrenamiento para integrar el conocimiento de múltiples puntos de control ajustados de un modelo base compartido. Los métodos existentes operan en el espacio de parámetros, combinando vectores de tareas para mitigar conflictos, pero siguen limitados por inconsistencias paramétricas. Proponemos Anclajes Duales Funcionales (FDA), un marco que, en cambio, modela el espacio de representación de entradas. Los FDA son entradas sintéticas cuyos grados inducidos se alinean con los vectores de tareas, capturando desplazamientos funcionales específicos de cada tarea en relación con el modelo preentrenado. Esta perspectiva tiende un puente entre el entrenamiento multitarea conjunto y la fusión post-hoc, ofreciendo tanto robustez como flexibilidad. Además, presentamos un esquema de inicialización fundamentado y demostramos que los FDA son complementarios a la fusión de modelos en el espacio de parámetros. Experimentos exhaustivos demuestran la efectividad de los FDA en la fusión de modelos.
English
Model merging is an efficient post-training strategy for integrating knowledge from multiple finetuned checkpoints of a shared foundation model. Existing methods operate in the parameter space, combining task vectors to mitigate conflicts, but remain constrained by parameter inconsistencies. We propose Functional Dual Anchors (FDAs), a framework that instead models the input-representation space. FDAs are synthetic inputs whose induced gradients align with task vectors, capturing task-specific functional shifts relative to the pretrained model. This perspective bridges joint multi-task training and post-hoc merging, offering both robustness and flexibility. We further introduce a principled initialization scheme and show that FDAs are complementary to parameter-space model merging. Comprehensive experiments demonstrate the effectiveness of FDAs in model merging.
PDF121December 17, 2025