Ajuste de Instruções Descentralizado: Divisão Consciente de Conflitos e Fusão de Pesos

Resumo

O ajuste por instruções alinha modelos de linguagem grandes, incluindo os multimodais, com diversas intenções do usuário, mas a escalabilidade para misturas heterogêneas é dificultada pela interferência de gradientes e pela sincronização que consome muita largura de banda. Perguntamos se esses dois gargalos podem ser abordados conjuntamente treinando partes da mistura de forma independente e reconciliando-as uma vez no espaço de parâmetros. Desenvolvemos uma teoria quadrática local dentro de uma bacia plana compartilhada que produz três resultados: a fusão de pesos produz uma redução de variância ponderada pela curvatura; a divisão de conflitos alinhada por PCA maximiza esse ganho ao longo de direções de alta curvatura; e a fusão adicionalmente atua como filtragem espectral com regularização implícita de norma. Esses resultados motivam diretamente o MERIT, um pipeline descentralizado de ajuste por instruções pronto para fusão que estima conflitos de gradiente em nível de conjunto de dados, particiona a mistura ao longo dos principais eixos de conflito da PCA, ajusta cada partição de forma independente sem comunicação entre partições e realiza a fusão uma vez por meio de média ponderada por tokens. No Qwen2.5-VL-3B com 136 tarefas Vision-FLAN, o MERIT melhora a média de 8 benchmarks de 54,3 (treinamento conjunto) para 57,0. A mesma receita escala para um modelo de 7B em uma mistura de 1,6M de exemplos e 176 fontes — igualando ou superando o treinamento conjunto centralizado com custo adicional mínimo — e transfere para o FLAN apenas textual. Nosso código está disponível em https://github.com/naver-ai/merit.

English

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.