Dezentrales Instruction Tuning: Konfliktbewusstes Splitting und Gewichts-Merging

Zusammenfassung

Die Instruktionstuning-Ausrichtung großer Sprachmodelle, einschließlich multimodaler, an verschiedenen Benutzerabsichten wird durch Gradienteninterferenz und bandbreitenintensive Synchronisation behindert, wenn die Skalierung auf heterogene Mischungen erfolgt. Wir untersuchen, ob diese beiden Engpässe gemeinsam adressiert werden können, indem Teile der Mischung unabhängig trainiert und einmal im Parameterraum wieder vereint werden. Wir entwickeln eine lokale quadratische Theorie innerhalb eines gemeinsamen flachen Beckens, die drei Ergebnisse liefert: Gewichtsvereinigung erzeugt eine krümmungsgewichtete Varianzreduktion; PCA-ausgerichtete Konfliktsplitting maximiert diesen Gewinn entlang hochkrümmungsbehafteter Richtungen; und die Vereinigung wirkt zusätzlich als spektrale Filterung mit impliziter Normregularisierung. Diese Ergebnisse motivieren direkt MERIT, eine dezentrale, vereinigungsbereite Instruktionstuning-Pipeline, die Gradientenkonflikte auf Datensatzebene schätzt, die Mischung entlang der oberen PCA-Konfliktachsen aufteilt, jede Partition unabhängig ohne Kommunikation zwischen den Partitionen feinabstimmt und einmal mittels token-gewichteter Mittelung vereinigt. Mit Qwen2.5-VL-3B und 136 Vision-FLAN-Aufgaben verbessert MERIT den 8-Benchmark-Durchschnitt von 54,3 (gemeinsames Training) auf 57,0. Dasselbe Rezept skaliert auf ein 7B-Modell mit einer Mischung aus 1,6 Millionen Beispielen und 176 Quellen – es erreicht oder übertrifft zentralisiertes gemeinsames Training mit minimalem Kostenaufwand – und überträgt sich auf textbasiertes FLAN. Unser Code ist verfügbar unter https://github.com/naver-ai/merit.

English

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.