Modellzusammenführung mit funktionalen Doppelankern
Model Merging with Functional Dual Anchors
October 24, 2025
papers.authors: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI
papers.abstract
Modellfusion ist eine effiziente Nachtraining-Strategie zur Integration von Wissen aus mehreren feinabgestimmten Checkpoints eines gemeinsamen Grundmodells. Bestehende Methoden operieren im Parameterraum, kombinieren Aufgabenvektoren, um Konflikte zu mildern, bleiben jedoch durch Parameterinkonsistenzen eingeschränkt. Wir schlagen Functional Dual Anchors (FDAs) vor, ein Framework, das stattdessen den Eingabe-Repräsentationsraum modelliert. FDAs sind synthetische Eingaben, deren induzierte Gradienten sich mit Aufgabenvektoren ausrichten und aufgabenspezifische funktionale Verschiebungen relativ zum vortrainierten Modell erfassen. Diese Perspektive überbrückt gemeinsames Multitask-Training und nachträgliche Fusion und bietet sowohl Robustheit als auch Flexibilität. Wir führen weiterhin ein prinzipielles Initialisierungsschema ein und zeigen, dass FDAs komplementär zur Modellfusion im Parameterraum sind. Umfassende Experimente demonstrieren die Wirksamkeit von FDAs bei der Modellfusion.
English
Model merging is an efficient post-training strategy for integrating
knowledge from multiple finetuned checkpoints of a shared foundation model.
Existing methods operate in the parameter space, combining task vectors to
mitigate conflicts, but remain constrained by parameter inconsistencies. We
propose Functional Dual Anchors (FDAs), a framework that instead models the
input-representation space. FDAs are synthetic inputs whose induced gradients
align with task vectors, capturing task-specific functional shifts relative to
the pretrained model. This perspective bridges joint multi-task training and
post-hoc merging, offering both robustness and flexibility. We further
introduce a principled initialization scheme and show that FDAs are
complementary to parameter-space model merging. Comprehensive experiments
demonstrate the effectiveness of FDAs in model merging.