Децентрализованная настройка инструкций: разделение с учетом конфликтов и слияние весов

Аннотация

Обучение по инструкциям (instruction tuning) позволяет согласовывать большие языковые модели, в том числе мультимодальные, с разнообразными намерениями пользователей, однако масштабирование на гетерогенные смеси сдерживается интерференцией градиентов и ресурсоёмкой синхронизацией. Мы задаёмся вопросом, можно ли одновременно устранить эти два узких места, обучая части смеси независимо и объединяя их один раз в пространстве параметров. Мы разрабатываем локальную квадратичную теорию внутри общего плоского бассейна, которая даёт три результата: слияние весов обеспечивает уменьшение дисперсии с учётом кривизны; выровненное по главным компонентам (PCA) разделение конфликтов максимизирует этот выигрыш вдоль направлений с высокой кривизной; а слияние дополнительно действует как спектральная фильтрация с неявной регуляризацией нормы. Эти результаты непосредственно обосновывают MERIT — децентрализованный конвейер обучения по инструкциям, готовый к слиянию, который оценивает конфликты градиентов на уровне наборов данных, разделяет смесь вдоль главных осей конфликтов PCA, тонко настраивает каждую часть независимо без межчастичной коммуникации и выполняет одно слияние посредством усреднения с весом по токенам. На модели Qwen2.5-VL-3B с 136 задачами Vision-FLAN метод MERIT повышает средний показатель по 8 бенчмаркам с 54,3 (совместное обучение) до 57,0. Та же схема масштабируется на модель с 7 млрд параметров на смеси из 1,6 млн примеров и 176 источников — достигая или превосходя централизованное совместное обучение с минимальными дополнительными затратами — и переносится на текстовую версию FLAN. Наш код доступен по адресу https://github.com/naver-ai/merit.

English

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.