FlexMoRE: 효율적인 연합 학습 대규모 언어 모델을 위한 순위 이질 전문가 유연 혼합 모델
FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models
February 9, 2026
저자: Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp
cs.AI
초록
최근 전문가 혼합 구조의 발전은 공통 기본 모델을 활용해 조정을 용이하게 함으로써 개별 전문가 모델을 연합 학습 방식으로, 즉 다른 전문가와 격리된 상태에서 훈련할 수 있음을 보여주었습니다. 그러나 우리는 모든 도메인에 대해 완전한 규모의 전문가가 필요하지 않을 수 있으며, 그 대신 낮은 계층의 어댑터로 충분할 수 있다고 가정합니다. 본 논문에서는 완전한 규모의 전문가 또는 적절한 계층을 가진 어댑터로 구성될 수 있는 유연한 계층 이질 전문가 혼합 모델인 FlexMoRE를 소개합니다. 우리는 계층 2^0부터 2^14까지의 6가지 전문가를 평가하여 전문가 계층과 다운스트림 작업 성능 간의 절충 관계를 체계적으로 조사했으며, 이는 2개 전문가로 구성된 96개 혼합과 7개 전문가로 구성된 54개 혼합, 총 150개 혼합 실험을 120개 작업에 걸쳐 평가한 결과입니다. 실험을 위해 FlexOlmo를 기반으로 삼아 사전 훈련된 전문가를 낮은 계층 버전으로 변환했습니다. 전문가 계층부터 다운스트림 작업 성능까지의 회귀 분석 결과, 추론 중심 벤치마크에서 최적의 성능을 내는 계층이 지식 중심 벤치마크보다 현저히 높은 것으로 나타났습니다. 이러한 계층 민감도에 대한 발견은 메모리 효율성과 직접적인 관련이 있습니다. 최적의 계층을 사용할 경우 FlexMoRE는 기준인 FlexOlmo 스타일의 완전 규모 전문가 혼합 모델(평균 점수 45.46) 대비 매개변수 수를 3분의 1 미만(FlexMoRE 10.75B 대 FlexOlmo 33.27B)으로 줄이면서도 향상된 다운스트림 작업 성능(평균 점수 47.18)을 달성했습니다. 모든 코드는 공개될 예정입니다.
English
Recent advances in mixture-of-experts architectures have shown that individual experts models can be trained federatedly, i.e., in isolation from other experts by using a common base model to facilitate coordination. However, we hypothesize that full-sized experts may not be necessary for all domains and that instead low-rank adapters may be sufficient. Here, we introduce FlexMoRE, a Flexible Mixture of Rank-heterogenous Experts, which may be either full-sized experts or adapters of a suitable rank. We systematically investigate the trade-off between expert rank and downstream task performance by evaluating 6 experts with ranks 2^0 to 2^{14} resulting in experiments covering 150 mixtures (96 with 2 experts, 54 with 7 experts) that are evaluated across 120 tasks. For our experiments, we build on FlexOlmo and turn its pre-trained experts into low-rank versions. Our regression analysis from expert rank to downstream task performance reveals that the best-performing rank is substantially higher for reasoning-heavy benchmarks than for knowledge-heavy benchmarks. These findings on rank sensitivity come with direct implications for memory efficiency: Using optimal ranks, FlexMoRE yields improved downstream task performance (average score 47.18) compared to the baseline FlexOlmo-style mixture of full-sized experts (average score 45.46) at less than one third the parameters (10.75B for FlexMoRE vs. 33.27B for FlexOlmo). All code will be made available.