FeatCal: Calibração de Características para Modelos Pós-Mesclagem

Resumo

A fusão de modelos combina especialistas em tarefas em um único modelo e evita treinamento conjunto, retreinamento ou implantação de vários modelos especialistas, mas o modelo fundido ainda frequentemente apresenta desempenho inferior aos especialistas em tarefas. Estudamos essa lacuna de desempenho através do desvio de características, a diferença entre as características produzidas pelo modelo fundido e pelo especialista na mesma entrada. Nossa teoria decompõe esse desvio em propagação a montante e incompatibilidade local, rastreia como ele se propaga e combina através das camadas posteriores em ordem direta, e vincula o desvio final de características ao desvio de saída. Essa visão motiva o FeatCal, que utiliza um pequeno conjunto de calibração para calibrar os pesos do modelo fundido camada por camada em ordem direta, reduzindo o desvio de características enquanto se mantém próximo aos pesos fundidos e preserva os benefícios da fusão de modelos. O FeatCal utiliza uma solução eficiente de forma fechada para atualizar os pesos do modelo, sem descida de gradiente, otimização iterativa ou módulos extras. Nos principais benchmarks CLIP e GLUE, o FeatCal supera o Surgery e o ProbSurgery, as linhas de base de calibração pós-fusão mais próximas: 85,5% vs. 77,0%/78,8% no CLIP-ViT-B/32 Task Arithmetic (TA) e 85,2% vs. 83,7%/82,2% no FLAN-T5-base GLUE. No CLIP-ViT-B/32, 8 exemplos por tarefa atingem 82,9%, e 256 exemplos por tarefa levam 53 segundos, cerca de 4 vezes mais rápido que ambas as linhas de base, mostrando melhor eficiência de amostragem e menor custo de calibração.

English

Model merging combines task experts into one model and avoids joint training, retraining, or deploying many expert models, but the merged model often still underperforms task experts. We study this performance gap through feature drift, the difference between features produced by the merged model and by the expert on the same input. Our theory decomposes this drift into upstream propagation and local mismatch, tracks how it propagates and combines through later layers in forward order, and links final feature drift to output drift. This view motivates FeatCal, which uses a small calibration set to calibrate the merged model weights layer by layer in forward order, reducing feature drift while staying close to merged weights and preserving the benefits of model merging. FeatCal uses an efficient closed-form solution to update model weights, with no gradient descent, iterative optimization, or extra modules. On the main CLIP and GLUE benchmarks, FeatCal beats Surgery and ProbSurgery, the closest post-merging calibration baselines: 85.5% vs. 77.0%/78.8% on CLIP-ViT-B/32 Task Arithmetic (TA) and 85.2% vs. 83.7%/82.2% on FLAN-T5-base GLUE. On CLIP-ViT-B/32, 8 examples per task reach 82.9%, and 256 examples per task take 53 seconds, about 4x faster than both baselines, showing better sample efficiency and lower calibration cost.