Gedecentraliseerde instructie-afstemming: conflictbewust splitsen en gewichtsmerging

Samenvatting

Instructie-afstemming stemt grote taalmodellen, waaronder multimodale, af op diverse gebruikersintenties, maar het opschalen naar heterogene mengsels wordt belemmerd door gradiëntinterferentie en bandbreedte-intensieve synchronisatie. We vragen ons af of deze twee knelpunten gezamenlijk kunnen worden aangepakt door delen van het mengsel onafhankelijk te trainen en ze eenmaal in de parameterruimte te verzoenen. We ontwikkelen een lokale kwadratische theorie binnen een gedeeld vlak bassin die drie resultaten oplevert: gewichtsamenvoeging produceert een kromming-gewogen variantiereductie; PCA-uitgelijnde conflictsplitsing maximaliseert deze winst langs richtingen met hoge kromming; en samenvoeging fungeert bovendien als spectrale filtering met impliciete normregularisatie. Deze resultaten motiveren direct MERIT, een gedecentraliseerde samenvoegingsklare instructie-afstemmingspijplijn die dataset-niveau gradiëntconflicten schat, het mengsel opdeelt langs de top PCA-conflictassen, elke partitie onafhankelijk verfijnt zonder communicatie tussen partities, en eenmaal samenvoegt via token-gewogen middeling. Op Qwen2.5-VL-3B met 136 Vision-FLAN-taken verbetert MERIT het 8-benchmarkgemiddelde van 54,3 (gezamenlijke training) naar 57,0. Hetzelfde recept schaalt naar een 7B-model op een mengsel van 1,6M voorbeelden en 176 bronnen – wat overeenkomt met of beter is dan gecentraliseerde gezamenlijke training met minimale kostenoverhead – en is overdraagbaar naar tekst-only FLAN. Onze code is beschikbaar op https://github.com/naver-ai/merit.

English

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.