FlexMoRE : Un Mélange Flexible d'Experts à Hétérogénéité de Rangs pour des Modèles de Langage à Grande Échelle Entraînés de Manière Fédérée et Efficace
FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models
February 9, 2026
papers.authors: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp
cs.AI
papers.abstract
Les récentes avancées dans les architectures de mélange d'experts ont montré que les modèles experts individuels peuvent être entraînés de manière fédérée, c'est-à-dire isolément des autres experts, en utilisant un modèle de base commun pour faciliter la coordination. Cependant, nous émettons l'hypothèse que des experts de taille complète ne sont pas nécessaires pour tous les domaines et que des adaptateurs de faible rang pourraient suffire. Nous présentons ici FlexMoRE, un Mélange Flexible d'Experts à Rangs Hétérogènes, qui peut être composé soit d'experts de taille complète, soit d'adaptateurs d'un rang approprié. Nous étudions systématiquement le compromis entre le rang de l'expert et les performances sur les tâches en aval en évaluant 6 experts avec des rangs de 2^0 à 2^14, ce qui donne des expériences couvrant 150 mélanges (96 avec 2 experts, 54 avec 7 experts) évalués sur 120 tâches. Pour nos expériences, nous nous appuyons sur FlexOlmo et transformons ses experts pré-entraînés en versions de faible rang. Notre analyse de régression allant du rang de l'expert aux performances sur les tâches en aval révèle que le rang optimal est nettement plus élevé pour les benchmarks axés sur le raisonnement que pour ceux axés sur les connaissances. Ces résultats sur la sensibilité au rang ont des implications directes pour l'efficacité mémoire : En utilisant des rangs optimaux, FlexMoRE offre de meilleures performances sur les tâches en aval (score moyen de 47,18) par rapport au mélange de base de type FlexOlmo avec des experts de taille complète (score moyen de 45,46), et ce avec moins d'un tiers des paramètres (10,75B pour FlexMoRE contre 33,27B pour FlexOlmo). Tout le code sera rendu public.
English
Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.