Modelos de Autonomía de Expertos
Autonomy-of-Experts Models
January 22, 2025
Autores: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI
Resumen
Los modelos de Mezcla de Expertos (MoE) generalmente utilizan un enrutador para asignar tokens a módulos expertos específicos, activando solo parámetros parciales y superando a menudo a los modelos densos. Sostenemos que la separación entre la toma de decisiones del enrutador y la ejecución de los expertos es un problema crítico pero pasado por alto, lo que conduce a una selección subóptima de expertos y un aprendizaje ineficaz. Para abordar esto, proponemos Autonomía de Expertos (AoE), un nuevo paradigma de MoE en el que los expertos se seleccionan autónomamente para procesar entradas. AoE se basa en la idea de que un experto es consciente de su capacidad para procesar efectivamente un token, una conciencia reflejada en la escala de sus activaciones internas. En AoE, se eliminan los enrutadores; en su lugar, los expertos precalculan activaciones internas para las entradas y se clasifican según sus normas de activación. Solo los expertos mejor clasificados continúan con el pase hacia adelante, mientras que los demás se detienen. El costo de precalcular activaciones se reduce mediante una factorización de pesos de rango bajo. Este enfoque de autoevaluación y comparación con socios garantiza una mejor selección de expertos y un aprendizaje efectivo. Pre-entrenamos modelos de lenguaje con 700M hasta 4B parámetros, demostrando que AoE supera a los modelos MoE tradicionales con eficiencia comparable.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to
specific expert modules, activating only partial parameters and often
outperforming dense models. We argue that the separation between the router's
decision-making and the experts' execution is a critical yet overlooked issue,
leading to suboptimal expert selection and ineffective learning. To address
this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which
experts autonomously select themselves to process inputs. AoE is based on the
insight that an expert is aware of its own capacity to effectively process a
token, an awareness reflected in the scale of its internal activations. In AoE,
routers are removed; instead, experts pre-compute internal activations for
inputs and are ranked based on their activation norms. Only the top-ranking
experts proceed with the forward pass, while the others abort. The overhead of
pre-computing activations is reduced through a low-rank weight factorization.
This self-evaluating-then-partner-comparing approach ensures improved expert
selection and effective learning. We pre-train language models having 700M up
to 4B parameters, demonstrating that AoE outperforms traditional MoE models
with comparable efficiency.Summary
AI-Generated Summary