FlexMoRE: Una Miscela Flessibile di Esperti Eterogenei per Rango per Modelli Linguistici di Grande Dimensione Addestrati in Modo Efficiente con Federated Learning

Abstract

I recenti progressi nelle architetture mixture-of-experts hanno dimostrato che i modelli di esperti individuali possono essere addestrati in modo federato, cioè isolatamente dagli altri esperti, utilizzando un modello base comune per facilitare il coordinamento. Tuttavia, ipotizziamo che esperti a dimensione piena possano non essere necessari per tutti i domini e che invece adattatori low-rank possano essere sufficienti. Qui introduciamo FlexMoRE, una Flexible Mixture of Rank-heterogenous Experts, che può essere composta da esperti a dimensione piena o da adattatori di rango appropriato. Investigiamo sistematicamente il trade-off tra il rango dell'esperto e le prestazioni sul task downstream valutando 6 esperti con ranghi da 2^0 a 2^{14}, risultando in esperimenti che coprono 150 miscele (96 con 2 esperti, 54 con 7 esperti) valutate su 120 task. Per i nostri esperimenti, partiamo da FlexOlmo e trasformiamo i suoi esperti pre-addestrati in versioni low-rank. La nostra analisi di regressione dal rango dell'esperto alle prestazioni sul task downstream rivela che il rango a prestazioni migliori è sostanzialmente più alto per benchmark ad alto contenuto di ragionamento che per benchmark ad alto contenuto di conoscenza. Questi risultati sulla sensibilità al rango hanno implicazioni dirette per l'efficienza della memoria: utilizzando i ranghi ottimali, FlexMoRE produce prestazioni migliori sul task downstream (punteggio medio 47.18) rispetto al baseline FlexOlmo-style di esperti a dimensione piena (punteggio medio 45.46) con meno di un terzo dei parametri (10.75B per FlexMoRE vs. 33.27B per FlexOlmo). Tutto il codice sarà reso disponibile.

English

Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.

FlexMoRE: Una Miscela Flessibile di Esperti Eterogenei per Rango per Modelli Linguistici di Grande Dimensione Addestrati in Modo Efficiente con Federated Learning

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

Abstract

Support