Réglage par instructions décentralisé : Division consciente des conflits et fusion de poids

Résumé

Le réglage par instructions aligne les grands modèles de langage, y compris les modèles multimodaux, sur diverses intentions des utilisateurs, mais le passage à l'échelle de mélanges hétérogènes est entravé par l'interférence des gradients et la synchronisation lourde en bande passante. Nous nous demandons si ces deux goulots d'étranglement peuvent être traités conjointement en entraînant indépendamment des parties du mélange et en les conciliant une fois dans l'espace des paramètres. Nous développons une théorie quadratique locale à l'intérieur d'un bassin plat partagé qui donne trois résultats : la fusion des poids produit une réduction de variance pondérée par la courbure ; la division des conflits alignée sur l'ACP maximise ce gain le long des directions à forte courbure ; et la fusion agit en outre comme un filtrage spectral avec régularisation implicite de la norme. Ces résultats motivent directement MERIT, un pipeline décentralisé prêt pour la fusion de réglage par instructions qui estime les conflits de gradient au niveau du jeu de données, partitionne le mélange le long des premiers axes de conflit de l'ACP, ajuste finement chaque partition indépendamment sans communication entre partitions, et fusionne une fois via une moyenne pondérée par les jetons. Sur Qwen2.5-VL-3B avec 136 tâches Vision-FLAN, MERIT améliore la moyenne de 8 benchmarks de 54,3 (entraînement conjoint) à 57,0. La même recette s'adapte à un modèle 7B sur un mélange de 1,6 million d'exemples et 176 sources – égalant ou surpassant l'entraînement conjoint centralisé avec un surcoût minimal – et se transfère à FLAN en texte uniquement. Notre code est disponible à l'adresse https://github.com/naver-ai/merit.

English

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.