ChatPaper.aiChatPaper

FineRMoE: Dimensie-uitbreiding voor fijnkorrelige experts met een upcycling-benadering

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

March 9, 2026
Auteurs: Ning Liao, Xiaoxing Wang, Xiaohan Qin, Junchi Yan
cs.AI

Samenvatting

Zoals onthuld door de schaalwet van fijnkorrelige MoE, verbetert de modelprestatie niet meer zodra de granulariteit van de tussenliggende dimensie de optimale drempel overschrijdt, wat verdere winst uit enkelvoudige-dimensie fijnkorrelige ontwerpen beperkt. Om dit knelpunt aan te pakken, stellen wij FineRMoE voor (FineR-Grained MoE), een architectuur die het fijnkorrelige expertontwerp uitbreidt naar zowel de tussenliggende als de uitvoerdimensies, met als doel de expertspecialisatie voorbij de enkelvoudige-dimensie limiet te verbeteren. Wij introduceren verder een tweedelig spaarzaam voorwaarts rekenparadigma en een gespecialiseerd routeringsmechanisme om de activering te sturen. Daarnaast ontwikkelen wij, om de buitensporige kosten van het vanaf nul trainen van FineRMoE te vermijden, een gegeneraliseerde *upcycling*-methode om FineRMoE op een kosteneffectieve manier op te bouwen. Uitgebreide experimenten tonen de superieure prestaties aan die door FineRMoE worden behaald op tien standaardbenchmarks. In vergelijking met de sterkste baseline bereikt FineRMoE 6 keer hogere parameter efficiëntie, 281 keer lagere *prefill*-latentie en 136 keer hogere *decoding*-doorvoer tijdens inferentie.
English
As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.
PDF92March 24, 2026