ChatPaper.aiChatPaper

기능적 이중 앵커를 활용한 모델 병합

Model Merging with Functional Dual Anchors

October 24, 2025
저자: Kexuan Shi, Yandong Wen, Weiyang Liu
cs.AI

초록

모델 병합은 공통 기반 모델의 여러 미세 조정 체크포인트 지식을 통합하기 위한 효율적인 사후 학습 전략입니다. 기존 방법은 매개변수 공간에서 작동하여 작업 벡터를 결합해 충돌을 완화하지만, 매개변수 불일치에 의해 제약을 받습니다. 본 연구에서는 대신 입력 표현 공간을 모델링하는 프레임워크인 기능적 이중 앵커(FDA)를 제안합니다. FDA는 유도된 그래디언트가 작업 벡터와 정렬되는 합성 입력으로, 사전 학습 모델 대비 작업별 기능적 변화를 포착합니다. 이 관점은 공동 다중 작업 학습과 사후 병합을 연결하여 견고성과 유연성을 모두 제공합니다. 더 나아가 원칙 기반 초기화 기법을 도입하고 FDA가 매개변수 공간 모델 병합과 상호 보완적임을 보입니다. 포괄적인 실험을 통해 모델 병합에서 FDA의 효과성을 입증합니다.
English
Model merging is an efficient post-training strategy for integrating knowledge from multiple finetuned checkpoints of a shared foundation model. Existing methods operate in the parameter space, combining task vectors to mitigate conflicts, but remain constrained by parameter inconsistencies. We propose Functional Dual Anchors (FDAs), a framework that instead models the input-representation space. FDAs are synthetic inputs whose induced gradients align with task vectors, capturing task-specific functional shifts relative to the pretrained model. This perspective bridges joint multi-task training and post-hoc merging, offering both robustness and flexibility. We further introduce a principled initialization scheme and show that FDAs are complementary to parameter-space model merging. Comprehensive experiments demonstrate the effectiveness of FDAs in model merging.
PDF121December 17, 2025