Modelos de Autonomía de Expertos

Resumen

Los modelos de Mezcla de Expertos (MoE) generalmente utilizan un enrutador para asignar tokens a módulos expertos específicos, activando solo parámetros parciales y superando a menudo a los modelos densos. Sostenemos que la separación entre la toma de decisiones del enrutador y la ejecución de los expertos es un problema crítico pero pasado por alto, lo que conduce a una selección subóptima de expertos y un aprendizaje ineficaz. Para abordar esto, proponemos Autonomía de Expertos (AoE), un nuevo paradigma de MoE en el que los expertos se seleccionan autónomamente para procesar entradas. AoE se basa en la idea de que un experto es consciente de su capacidad para procesar efectivamente un token, una conciencia reflejada en la escala de sus activaciones internas. En AoE, se eliminan los enrutadores; en su lugar, los expertos precalculan activaciones internas para las entradas y se clasifican según sus normas de activación. Solo los expertos mejor clasificados continúan con el pase hacia adelante, mientras que los demás se detienen. El costo de precalcular activaciones se reduce mediante una factorización de pesos de rango bajo. Este enfoque de autoevaluación y comparación con socios garantiza una mejor selección de expertos y un aprendizaje efectivo. Pre-entrenamos modelos de lenguaje con 700M hasta 4B parámetros, demostrando que AoE supera a los modelos MoE tradicionales con eficiencia comparable.

English

Mixture-of-Experts (MoE) models mostly use a router to assign tokens to specific expert modules, activating only partial parameters and often outperforming dense models. We argue that the separation between the router's decision-making and the experts' execution is a critical yet overlooked issue, leading to suboptimal expert selection and ineffective learning. To address this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which experts autonomously select themselves to process inputs. AoE is based on the insight that an expert is aware of its own capacity to effectively process a token, an awareness reflected in the scale of its internal activations. In AoE, routers are removed; instead, experts pre-compute internal activations for inputs and are ranked based on their activation norms. Only the top-ranking experts proceed with the forward pass, while the others abort. The overhead of pre-computing activations is reduced through a low-rank weight factorization. This self-evaluating-then-partner-comparing approach ensures improved expert selection and effective learning. We pre-train language models having 700M up to 4B parameters, demonstrating that AoE outperforms traditional MoE models with comparable efficiency.

Modelos de Autonomía de Expertos

Autonomy-of-Experts Models

Resumen

Support