FineRMoE: Espansione Dimensionale per un Esperto a Grana più Fina con il suo Approccio di Riciclo

Abstract

Come rivelato dalla legge di scala dei MoE a grana fine, le prestazioni del modello cessano di migliorare una volta che la granularità della dimensione intermedia supera la soglia ottimale, limitando ulteriori guadagni dalla progettazione fine-dimensionale unidimensionale. Per affrontare questo collo di bottiglia, proponiamo FineRMoE (MoE a Grana Fine-R), un'architettura che estende la progettazione fine degli esperti sia alle dimensioni intermedie che a quelle di output, con l'obiettivo di potenziare la specializzazione degli esperti oltre il limite unidimensionale. Introduciamo inoltre un paradigma di computazione forward sparsa a due livelli e un meccanismo di routing specializzato per governare l'attivazione. Inoltre, per ovviare al costo proibitivo dell'addestramento di FineRMoE da zero, ideiamo un metodo generalizzato di upcycling per costruire FineRMoE in modo economicamente efficiente. Esperimenti estensivi dimostrano le prestazioni superiori raggiunte da FineRMoE su dieci benchmark standard. Rispetto al baseline più robusto, FineRMoE raggiunge un'efficienza parametrica 6 volte superiore, una latenza di prefill 281 volte inferiore e un throughput di decodifica durante l'inferenza 136 volte più alto.

English

As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.

FineRMoE: Espansione Dimensionale per un Esperto a Grana più Fina con il suo Approccio di Riciclo

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Abstract

Support