FineRMoE : Expansion dimensionnelle pour un expert à granularité plus fine avec son approche de surcyclage

Résumé

Comme le révèle la loi d’échelle du MoE à granularité fine, les performances du modèle cessent de s’améliorer une fois que la granularité de la dimension intermédiaire dépasse le seuil optimal, limitant les gains supplémentaires issus d’une conception fine unidimensionnelle. Pour résoudre ce goulot d’étranglement, nous proposons FineRMoE (FineR-Grained MoE), une architecture qui étend la conception fine des experts aux dimensions intermédiaire et de sortie, visant à renforcer la spécialisation des experts au-delà de la limite unidimensionnelle. Nous introduisons en outre un paradigme de calcul avant parcimonieux à deux niveaux et un mécanisme d’aiguillage spécialisé pour contrôler l’activation. De plus, pour éviter le coût prohibitif de l’entraînement de FineRMoE à partir de zéro, nous concevons une méthode de surcyclage généralisée pour construire FineRMoE de manière économique. Des expériences approfondies démontrent la performance supérieure de FineRMoE sur dix benchmarks standards. Par rapport au meilleur modèle de référence, FineRMoE atteint une efficacité paramétrique 6 fois supérieure, une latence de préremplissage 281 fois plus faible et un débit de décodage 136 fois plus élevé lors de l’inférence.

English

As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.

FineRMoE : Expansion dimensionnelle pour un expert à granularité plus fine avec son approche de surcyclage

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Résumé

Support