FineRMoE: Расширение размерности для более детализированного эксперта с использованием подхода его апсайклинга

Аннотация

Как показал закон масштабирования для мелкозернистых MoE-моделей, производительность модели перестает улучшаться, как только гранулярность промежуточного измерения превышает оптимальный порог, что ограничивает дальнейший выигрыш от одномерного мелкозернистого проектирования. Для преодоления этого узкого места мы предлагаем FineRMoE — архитектуру, расширяющую принцип мелкозернистого проектирования экспертов на промежуточное и выходное измерения, что позволяет повысить специализацию экспертов за пределами одномерного ограничения. Мы также вводим двухуровневую разреженную схему прямых вычислений и специализированный механизм маршрутизации для управления активацией. Кроме того, чтобы избежать непомерных затрат на обучение FineRMoE с нуля, мы разрабатываем обобщенный метод апсайклинга для экономически эффективного построения модели. Многочисленные эксперименты демонстрируют превосходную производительность FineRMoE на десяти стандартных бенчмарках. По сравнению с сильнейшим базовым методом FineRMoE демонстрирует в 6 раз более высокую параметрическую эффективность, в 281 раз меньшую латентность предзаполнения и в 136 раз более высокую пропускную способность декодирования при выводе.

English

As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.

FineRMoE: Расширение размерности для более детализированного эксперта с использованием подхода его апсайклинга

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Аннотация

Support