Ajuste de Instrucción Descentralizado: División Consciente de Conflictos y Fusión de Pesos

Resumen

El ajuste por instrucciones alinea modelos de lenguaje grandes, incluidos los multimodales, con diversas intenciones de usuario, pero el escalado a mezclas heterogéneas se ve obstaculizado por la interferencia de gradientes y la sincronización con alto consumo de ancho de banda. Nos preguntamos si estos dos cuellos de botella pueden abordarse conjuntamente entrenando partes de la mezcla de forma independiente y reconciliándolas una vez en el espacio de parámetros. Desarrollamos una teoría cuadrática local dentro de una cuenca plana compartida que produce tres resultados: la fusión de pesos genera una reducción de varianza ponderada por curvatura; la división de conflictos alineada con PCA maximiza esta ganancia a lo largo de direcciones de alta curvatura; y la fusión adicional actúa como filtrado espectral con regulación implícita de norma. Estos resultados motivan directamente MERIT, un pipeline de ajuste por instrucciones descentralizado y listo para fusión que estima conflictos de gradientes a nivel de conjunto de datos, particiona la mezcla a lo largo de los principales ejes de conflicto de PCA, ajusta cada partición de forma independiente sin comunicación entre particiones, y fusiona una vez mediante promediado ponderado por tokens. En Qwen2.5-VL-3B con 136 tareas de Vision-FLAN, MERIT mejora el promedio de 8 benchmarks de 54.3 (entrenamiento conjunto) a 57.0. La misma receta escala a un modelo de 7B en una mezcla de 1.6 millones de ejemplos y 176 fuentes, igualando o superando el entrenamiento conjunto centralizado con un costo adicional mínimo, y se transfiere a FLAN solo de texto. Nuestro código está disponible en https://github.com/naver-ai/merit.

English

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.