ChatPaper.aiChatPaper

FlexMoRE: Гибкая смесь экспертов с разнородными рангами для эффективного обучения больших языковых модеей методом федеративного обучения

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

February 9, 2026
Авторы: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp
cs.AI

Аннотация

Последние достижения в архитектурах смесей экспертов показали, что отдельные модели экспертов могут обучаться федеративно, то есть изолированно от других экспертов, с использованием общей базовой модели для облегчения координации. Однако мы выдвигаем гипотезу, что эксперты полного размера могут быть не нужны для всех доменов и вместо них может быть достаточно низкоранговых адаптеров. Здесь мы представляем FlexMoRE — гибкую смесь экспертов с разнородным рангом, где экспертами могут быть как модели полного размера, так и адаптеры подходящего ранга. Мы систематически исследуем компромисс между рангом эксперта и производительностью на последующих задачах, оценивая 6 экспертов с рангами от 2^0 до 2^14, что привело к экспериментам, охватывающим 150 смесей (96 с 2 экспертами, 54 с 7 экспертами), которые оцениваются на 120 задачах. Для наших экспериментов мы основываемся на FlexOlmo и преобразуем его предварительно обученных экспертов в низкоранговые версии. Наш регрессионный анализ зависимости производительности на последующих задачах от ранга эксперта показывает, что наилучший ранг существенно выше для бенчмарков с высокой долей логических рассуждений, чем для бенчмарков, насыщенных проверкой знаний. Эти выводы о чувствительности к рангу имеют прямые последствия для эффективности использования памяти: при использовании оптимальных рангов FlexMoRE демонстрирует улучшенную производительность на последующих задачах (средний балл 47,18) по сравнению с базовой смесью экспертов полного размера в стиле FlexOlmo (средний балл 45,46) при использовании менее трети параметров (10,75 млрд для FlexMoRE против 33,27 млрд для FlexOlmo). Весь код будет общедоступен.
English
Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.
PDF12February 11, 2026