ChatPaper.aiChatPaper

FlexMoRE: 効率的なフェデレーテッド学習対応大規模言語モデルのための柔軟なランク不均一エキスパート混合モデル

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

February 9, 2026
著者: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp
cs.AI

要旨

専門家混合(Mixture-of-Experts)アーキテクチャの最近の進展により、個々の専門家モデルは、共通の基盤モデルを用いて調整を促進することで、他の専門家から分離して(連合的に)訓練できることが示されている。しかし我々は、すべての領域においてフルサイズの専門家が必要とは限らず、代わりに低ランクのアダプタで十分であると仮説を立てる。本論文では、フルサイズの専門家または適切なランクのアダプタのいずれかであり得る、柔軟なランク不均一専門家混合モデル「FlexMoRE」を提案する。我々は、ランク2^0から2^14までの6種類の専門家を評価し、120のタスクで評価される150の混合(2専門家の混合96通り、7専門家の混合54通り)を網羅する実験を通じて、専門家のランクと下流タスク性能のトレードオフを系統的に調査する。実験ではFlexOlmoを基盤とし、その事前学習済み専門家を低ランク版に変換する。専門家のランクから下流タスク性能への回帰分析により、推論が重視されるベンチマークでは、知識が重視されるベンチマークに比べて、最高性能をもたらすランクが大幅に高いことが明らかになった。このランク感度に関する知見は、メモリ効率に直接的な示唆を与えるものとなる:最適なランクを用いることで、FlexMoREは、ベースラインであるFlexOlmoスタイルのフルサイズ専門家混合モデル(平均スコア45.46)と比較して、パラメータ数が3分の1未満(FlexMoREが10.75B、FlexOlmoが33.27B)でありながら、改善された下流タスク性能(平均スコア47.18)を達成する。すべてのコードは公開予定である。
English
Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.
PDF12February 11, 2026