ChatPaper.aiChatPaper

Слияние моделей с использованием функциональных двойных якорей

Model Merging with Functional Dual Anchors

October 24, 2025
Авторы: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI

Аннотация

Слияние моделей представляет собой эффективную стратегию пост-обучения для интеграции знаний из нескольких дообученных контрольных точек общей базовой модели. Существующие методы работают в параметрическом пространстве, комбинируя векторы задач для смягчения конфликтов, но остаются ограниченными параметрической несовместимостью. Мы предлагаем Функциональные Двойные Якоря (ФДЯ) — фреймворк, который вместо этого моделирует пространство входных представлений. ФДЯ являются синтетическими входами, индуцированные градиенты которых согласуются с векторами задач, фиксируя функциональные сдвиги, специфичные для задачи, относительно предобученной модели. Этот подход объединяет совместное многозадачное обучение и последующее слияние, обеспечивая как устойчивость, так и гибкость. Мы также вводим принципиальную схему инициализации и показываем, что ФДЯ дополняют слияние моделей в параметрическом пространстве. Комплексные эксперименты демонстрируют эффективность ФДЯ при слиянии моделей.
English
Model merging is an efficient post-training strategy for integrating knowledge from multiple finetuned checkpoints of a shared foundation model. Existing methods operate in the parameter space, combining task vectors to mitigate conflicts, but remain constrained by parameter inconsistencies. We propose Functional Dual Anchors (FDAs), a framework that instead models the input-representation space. FDAs are synthetic inputs whose induced gradients align with task vectors, capturing task-specific functional shifts relative to the pretrained model. This perspective bridges joint multi-task training and post-hoc merging, offering both robustness and flexibility. We further introduce a principled initialization scheme and show that FDAs are complementary to parameter-space model merging. Comprehensive experiments demonstrate the effectiveness of FDAs in model merging.
PDF121December 17, 2025