FineRMoE: Dimensionserweiterung für granularere Experten mittels eines Upcycling-Ansatzes

Zusammenfassung

Wie das Skalierungsgesetz für feinkörnige MoE-Systeme zeigt, verbessert sich die Modellleistung nicht mehr, sobald die Granularität der Zwischendimension den optimalen Schwellenwert überschreitet, was den weiteren Nutzen von feinkörnigen Designs in nur einer Dimension begrenzt. Um diesen Engpass zu überwinden, schlagen wir FineRMoE (FineR-Grained MoE) vor – eine Architektur, die das feinkörnige Experten-Design auf sowohl Zwischen- als auch Ausgabedimensionen ausdehnt, um die Expertenspezialisierung über die Ein-Dimension-Grenze hinaus zu steigern. Wir führen weiterhin ein zweistufiges sparsames Vorwärtsberechnungs-Paradigma und einen spezialisierten Routing-Mechanismus ein, um die Aktivierung zu steuern. Zusätzlich entwickeln wir, um die prohibitiv hohen Kosten für das Training von FineRMoE von Grund auf zu vermeiden, eine generalisierte Upcycling-Methode für einen kosteneffizienten Aufbau von FineRMoE. Umfangreiche Experimente belegen die überlegene Leistung von FineRMoE in zehn Standard-Benchmarks. Im Vergleich zur stärksten Baseline erzielt FineRMoE eine 6-fach höhere Parameter-Effizienz, eine 281-fach geringere Prefill-Latenz und einen 136-fach höheren Durchsatz beim Dekodieren während des Inferenzvorgangs.

English

As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.

FineRMoE: Dimensionserweiterung für granularere Experten mittels eines Upcycling-Ansatzes

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Zusammenfassung

Support