FineRMoE: Expansión de Dimensión para un Experto de Grano Más Fino con su Enfoque de Reutilización Mejorada

Resumen

Como revela la ley de escalamiento de MoE de grano fino, el rendimiento del modelo deja de mejorar una vez que la granularidad de la dimensión intermedia supera el umbral óptimo, lo que limita las ganancias adicionales del diseño de grano fino unidimensional. Para abordar este cuello de botella, proponemos FineRMoE (MoE de Grano más Fino), una arquitectura que extiende el diseño de expertos de grano fino a las dimensiones intermedias y de salida, con el objetivo de mejorar la especialización de los expertos más allá del límite unidimensional. Además, introducimos un paradigma de cálculo directo disperso de dos niveles y un mecanismo de enrutamiento especializado para gestionar la activación. Adicionalmente, para evitar el costo prohibitivo de entrenar FineRMoE desde cero, diseñamos un método generalizado de reciclaje ascendente para construir FineRMoE de manera rentable. Experimentos exhaustivos demuestran el rendimiento superior alcanzado por FineRMoE en diez benchmarks estándar. En comparación con la línea base más sólida, FineRMoE logra una eficiencia de parámetros 6 veces mayor, una latencia de prellenado 281 veces menor y un rendimiento de decodificación 136 veces mayor durante la inferencia.

English

As revealed by the scaling law of fine-grained MoE, model performance ceases to be improved once the granularity of the intermediate dimension exceeds the optimal threshold, limiting further gains from single-dimension fine-grained design. To address this bottleneck, we propose FineRMoE (FineR-Grained MoE), an architecture that extends fine-grained expert design to both intermediate and output dimensions, aiming to enhance expert specialization beyond the single-dimension limit. We further introduce a bi-level sparse forward computation paradigm and a specialized routing mechanism to govern the activation. In addition, to obviate the prohibitive cost of training FineRMoE from scratch, we devise a generalized upcycling method to build FineRMoE in a cost-effective manner. Extensive experiments demonstrate the superior performance achieved by FineRMoE across ten standard benchmarks. Compared with the strongest baseline, FineRMoE achieves 6 times higher parameter efficiency, 281 times lower prefill latency, and 136 timese higher decoding throughput during inference.

FineRMoE: Expansión de Dimensión para un Experto de Grano Más Fino con su Enfoque de Reutilización Mejorada

FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Resumen

Support