Toegangssets doen ertoe: het budgetteren van expert-uitlezingen voor schaalbare gewichtsruimte-modelsamenvoeging
Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging
May 28, 2026
Auteurs: Yuanyi Wang, Yanggan Gu, Su Lu, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang
cs.AI
Samenvatting
Gewichtsruimte-modelfusie wordt doorgaans geformuleerd als een algebraïsche bewerking op controlepunten, maar op de schaal van grote taalmodellen is de beperkende factor vaak de reeks expertgewichten die uitgelezen moeten worden. We introduceren MergePipe, een budgetbewuste uitvoeringslaag die LLM-fusie herformuleert als een expert-toegangsprobleem: gegeven een fusie-operator en een checkpoint-familie in een gedeeld gewichtcoördinatensysteem, wordt bepaald welke expert-delta-blokken worden benaderd onder een expliciet I/O-budget. MergePipe indexeert parameterblokken, bouwt deterministische toegangsplannen en voert de resulterende begrote fusie uit met herbare manifesten. Het plan is per constructie budgetcorrect en herstelt de volledige uitleesfusie bij volledig budget; voor additieve operatoren met vaste coëfficiënten is de fout door weggelaten updates begrensd door de norm van de weggelaten delta's. Op Qwen- en Llama-fusiewerkdrukken vermindert MergePipe het expert-uitlees-I/O met tot een orde van grootte en behaalt het snelheidswinsten tot 11 keer. Representatieve budgetrondes tonen parameterafwijkingen van O(10^{-3}) ten opzichte van volledige uitleesfusies en geen monotone verslechtering op stroomafwaartse benchmarks.
English
Weight-space model merging is usually formulated as an algebraic operation on checkpoints, yet at LLM scale the limiting resource is often the set of expert weights that must be read. We introduce MergePipe, a budget-aware execution layer that casts LLM merging as an expert access-set problem: given a merge operator and a checkpoint family in a shared weight coordinate system, choose which expert delta blocks to access under an explicit I/O budget. MergePipe indexes parameter blocks, builds deterministic access plans, and executes the induced budgeted merge with replayable manifests. The plan is budget-sound by construction and recovers the full-read merge at full budget; for fixed-coefficient additive operators, the omitted-update error is bounded by the norm of omitted deltas. Across Qwen and Llama merging workloads, MergePipe reduces expert-read I/O by up to an order of magnitude and achieves up to 11times speedups. Representative budget sweeps show O(10^{-3}) parameter deviation from full-read merges and no monotonic degradation on downstream benchmarks.