ChatPaper.aiChatPaper

FlexMoRE: Una Mezcla Flexible de Expertos de Rango Heterogéneo para Modelos de Lenguaje Grande Entrenados Federados de Manera Eficiente

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

February 9, 2026
Autores: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp
cs.AI

Resumen

Los recientes avances en arquitecturas de mezcla de expertos han demostrado que los modelos expertos individuales pueden entrenarse de manera federada, es decir, de forma aislada de otros expertos utilizando un modelo base común para facilitar la coordinación. Sin embargo, planteamos la hipótesis de que los expertos de tamaño completo podrían no ser necesarios para todos los dominios y que, en su lugar, los adaptadores de bajo rango podrían ser suficientes. Aquí presentamos FlexMoRE, una Mezcla Flexible de Expertos con Rango Heterogéneo, que puede consistir en expertos de tamaño completo o adaptadores de un rango adecuado. Investigamos sistemáticamente la relación de compromiso entre el rango del experto y el rendimiento en tareas posteriores mediante la evaluación de 6 expertos con rangos desde 2^0 hasta 2^{14}, lo que resulta en experimentos que abarcan 150 mezclas (96 con 2 expertos, 54 con 7 expertos) evaluadas en 120 tareas. Para nuestros experimentos, partimos de FlexOlmo y convertimos sus expertos preentrenados en versiones de bajo rango. Nuestro análisis de regresión del rango del experto al rendimiento en tareas posteriores revela que el rango de mejor rendimiento es sustancialmente mayor para benchmarks con alto contenido de razonamiento que para benchmarks con alto contenido de conocimiento. Estos hallazgos sobre la sensibilidad al rango tienen implicaciones directas para la eficiencia de memoria: utilizando rangos óptimos, FlexMoRE produce un mejor rendimiento en tareas posteriores (puntuación promedio 47.18) en comparación con la mezcla de referencia de expertos de tamaño completo al estilo de FlexOlmo (puntuación promedio 45.46) con menos de un tercio de los parámetros (10.75B para FlexMoRE frente a 33.27B para FlexOlmo). Todo el código estará disponible.
English
Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.
PDF12February 11, 2026