FlexMoRE: Ein flexibles Gemisch von rangheterogenen Experten für effiziente, föderiert trainierte große Sprachmodelle
FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models
February 9, 2026
papers.authors: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp
cs.AI
papers.abstract
Jüngste Fortschritte bei Mixture-of-Experts-Architekturen haben gezeigt, dass einzelne Expertenmodelle föderiert trainiert werden können, d.h. isoliert von anderen Experten, indem ein gemeinsames Basismodell zur Koordination genutzt wird. Wir stellen jedoch die Hypothese auf, dass vollwertige Experten für alle Domänen nicht notwendig sind und stattdessen Low-Rank-Adapter ausreichen könnten. Hier stellen wir FlexMoRE vor, eine Flexible Mixture of Rank-heterogeneous Experts, die entweder vollwertige Experten oder Adapter mit geeignetem Rang sein können. Wir untersuchen systematisch den Zielkonflikt zwischen Expertenrang und Leistung bei nachgelagerten Aufgaben, indem wir 6 Experten mit Rängen von 2⁰ bis 2¹⁴ evaluieren, was Experimente mit 150 Mixtures (96 mit 2 Experten, 54 mit 7 Experten) umfasst, die über 120 Aufgaben hinweg bewertet werden. Für unsere Experimente bauen wir auf FlexOlmo auf und wandeln dessen vortrainierte Experten in Low-Rank-Versionen um. Unsere Regressionsanalyse vom Expertenrang zur Downstream-Leistung zeigt, dass der beste Rang für reasoning-lastige Benchmarks deutlich höher ist als für wissenslastige Benchmarks. Diese Erkenntnisse zur Rangsensitivität haben direkte Auswirkungen auf die Speichereffizienz: Bei Verwendung optimaler Ränge erzielt FlexMoRE eine verbesserte Downstream-Leistung (Durchschnittswert 47,18) im Vergleich zur Baseline-Mixture aus vollwertigen Experten im FlexOlmo-Stil (Durchschnittswert 45,46) mit weniger als einem Drittel der Parameter (10,75B für FlexMoRE vs. 33,27B für FlexOlmo). Der gesamte Code wird verfügbar gemacht.
English
Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.