FlexMoRE: Een flexibel mengsel van rang-heterogene experts voor efficiënte federaal getrainde grote taalmodel

Samenvatting

Recente vooruitgang in mixture-of-experts-architecturen heeft aangetoond dat individuele expertmodellen gefedereerd kunnen worden getraind, d.w.z. geïsoleerd van andere experts, door gebruik te maken van een gemeenschappelijk basismodel om coördinatie te vergemakkelijken. Wij veronderstellen echter dat experts op volledige schaal niet voor alle domeinen noodzakelijk zijn en dat in plaats daarvan low-rank-adapters voldoende kunnen zijn. Hier introduceren wij FlexMoRE, een Flexibel Mengsel van Rank-heterogene Experts, die ofwel experts op volledige schaal kunnen zijn, ofwel adapters met een geschikte rang. Wij onderzoeken systematisch de afweging tussen de rang van de expert en de prestaties op downstreamtaken door 6 experts te evalueren met rangen van 2^0 tot 2^{14, wat resulteert in experimenten met 150 mengsels (96 met 2 experts, 54 met 7 experts) die worden geëvalueerd over 120 taken. Voor onze experimenten bouwen wij voort op FlexOlmo en zetten diens vooraf getrainde experts om in low-rank-versies. Onze regressieanalyse van expertrang naar downstreamtaakprestatie onthult dat de best presterende rang aanzienlijk hoger is voor benchmarks die zwaar op redeneren leunen dan voor benchmarks die zwaar op kennis leunen. Deze bevindingen over ranggevoeligheid hebben directe implicaties voor geheugenefficiëntie: door gebruik te maken van optimale rangen levert FlexMoRE verbeterde downstreamtaakprestaties (gemiddelde score 47,18) op in vergelijking met de baseline, een FlexOlmo-stijl mengsel van experts op volledige schaal (gemiddelde score 45,46), met minder dan een derde van de parameters (10,75B voor FlexMoRE vs. 33,27B voor FlexOlmo). Alle code zal beschikbaar worden gesteld.

English

Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.

FlexMoRE: Een flexibel mengsel van rang-heterogene experts voor efficiënte federaal getrainde grote taalmodel

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

Samenvatting

Support