FlexMoRE: Uma Mistura Flexível de Especialistas com Heterogeneidade de Classificação para Grandes Modelos de Linguagem Treinados por Federação de Forma Eficiente

Resumo

Avanços recentes em arquiteturas de mistura de especialistas demonstraram que modelos de especialistas individuais podem ser treinados de forma federada, ou seja, isoladamente de outros especialistas, utilizando um modelo base comum para facilitar a coordenação. No entanto, levantamos a hipótese de que especialistas de tamanho completo podem não ser necessários para todos os domínios e que, em vez disso, adaptadores de baixo *rank* podem ser suficientes. Aqui, introduzimos o FlexMoRE, uma Mistura Flexível de Especialistas com *Rank* Heterogêneo, que pode ser composta por especialistas de tamanho completo ou por adaptadores com um *rank* adequado. Investigamos sistematicamente o equilíbrio entre o *rank* do especialista e o desempenho em tarefas subsequentes, avaliando 6 especialistas com *ranks* de 2^0 a 2^{14}, resultando em experimentos que abrangem 150 misturas (96 com 2 especialistas, 54 com 7 especialistas) avaliadas em 120 tarefas. Para nossos experimentos, baseamo-nos no FlexOlmo e convertemos seus especialistas pré-treinados em versões de baixo *rank*. Nossa análise de regressão do *rank* do especialista para o desempenho da tarefa subsequente revela que o *rank* de melhor desempenho é substancialmente maior para benchmarks com forte componente de raciocínio do que para benchmarks com forte componente de conhecimento. Essas descobertas sobre a sensibilidade ao *rank* trazem implicações diretas para a eficiência de memória: usando *ranks* ótimos, o FlexMoRE produz um desempenho superior em tarefas subsequentes (pontuação média de 47,18) em comparação com a mistura de linha de base no estilo FlexOlmo com especialistas de tamanho completo (pontuação média de 45,46), utilizando menos de um terço dos parâmetros (10,75B para FlexMoRE vs. 33,27B para FlexOlmo). Todo o código será disponibilizado.

English

Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.

FlexMoRE: Uma Mistura Flexível de Especialistas com Heterogeneidade de Classificação para Grandes Modelos de Linguagem Treinados por Federação de Forma Eficiente

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

Resumo

Support