Conjuntos de Acesso Importam: Alocação Orçamentária de Leituras de Especialistas para Fusão Escalável de Modelos no Espaço de Pesos
Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging
May 28, 2026
Autores: Yuanyi Wang, Yanggan Gu, Su Lu, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang
cs.AI
Resumo
A mesclagem de modelos no espaço de pesos é geralmente formulada como uma operação algébrica sobre checkpoints, mas, na escala de LLMs, o recurso limitante é frequentemente o conjunto de pesos especialistas que precisam ser lidos. Apresentamos o MergePipe, uma camada de execução consciente de orçamento que trata a mesclagem de LLMs como um problema de conjunto de acesso a especialistas: dado um operador de mesclagem e uma família de checkpoints em um sistema de coordenadas de pesos compartilhado, selecionar quais blocos delta de especialistas acessar sob um orçamento explícito de E/S. O MergePipe indexa blocos de parâmetros, constrói planos de acesso determinísticos e executa a mesclagem orçada induzida com manifestos reproduzíveis. O plano é válido em relação ao orçamento por construção e recupera a mesclagem de leitura completa no orçamento total; para operadores aditivos de coeficiente fixo, o erro de atualização omitida é limitado pela norma dos deltas omitidos. Em cargas de trabalho de mesclagem Qwen e Llama, o MergePipe reduz a E/S de leitura de especialistas em até uma ordem de magnitude e alcança acelerações de até 11 vezes. Varreduras de orçamento representativas mostram desvio de parâmetros da ordem de \(10^{-3}\) em relação às mesclagens de leitura completa e nenhuma degradação monotônica em benchmarks downstream.
English
Weight-space model merging is usually formulated as an algebraic operation on checkpoints, yet at LLM scale the limiting resource is often the set of expert weights that must be read. We introduce MergePipe, a budget-aware execution layer that casts LLM merging as an expert access-set problem: given a merge operator and a checkpoint family in a shared weight coordinate system, choose which expert delta blocks to access under an explicit I/O budget. MergePipe indexes parameter blocks, builds deterministic access plans, and executes the induced budgeted merge with replayable manifests. The plan is budget-sound by construction and recovers the full-read merge at full budget; for fixed-coefficient additive operators, the omitted-update error is bounded by the norm of omitted deltas. Across Qwen and Llama merging workloads, MergePipe reduces expert-read I/O by up to an order of magnitude and achieves up to 11times speedups. Representative budget sweeps show O(10^{-3}) parameter deviation from full-read merges and no monotonic degradation on downstream benchmarks.