FineRMoE: Expansão Dimensional para Especialistas de Granularidade Mais Fina com Abordagem de Reciclagem

Resumo

Como revelado pela lei de escalabilidade do MoE de granularidade fina, o desempenho do modelo deixa de melhorar quando a granularidade da dimensão intermediária ultrapassa o limiar ótimo, limitando ganhos adicionais do design de granularidade fina unidimensional. Para superar este gargalo, propomos o FineRMoE (MoE de Granularidade Mais Fina), uma arquitetura que estende o design de especialistas de granularidade fina para as dimensões intermediária e de saída, visando aprimorar a especialização dos especialistas além do limite unidimensional. Introduzimos ainda um paradigma de computação direta esparsa de dois níveis e um mecanismo de roteamento especializado para governar a ativação. Além disso, para evitar o custo proibitivo de treinar o FineRMoE a partir do zero, concebemos um método generalizado de *upcycling* para construir o FineRMoE de maneira economicamente viável. Experimentos extensivos demonstram o desempenho superior alcançado pelo FineRMoE em dez *benchmarks* padrão. Em comparação com a linha de base mais forte, o FineRMoE alcança eficiência de parâmetros 6 vezes maior, latência de pré-preenchimento 281 vezes menor e taxa de transferência de decodificação 136 vezes maior durante a inferência.

English

As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.

FineRMoE: Expansão Dimensional para Especialistas de Granularidade Mais Fina com Abordagem de Reciclagem

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Resumo

Support