Modèles Mixtes d'Experts à Extension Temporelle

Résumé

Les modèles à mélange d'experts, désormais populaires pour augmenter la capacité à vitesse d'inférence fixe, changent d'expert à presque chaque token. Lorsqu'un modèle dépasse la mémoire GPU disponible, cette instabilité peut rendre inefficaces des optimisations comme le déchargement et la pré-chargement. Nous démontrons que le cadre des options en apprentissage par renforcement est parfaitement adapté pour résoudre ce problème, et plaidons en faveur de couches à mélange d'experts temporellement étendues. En nous appuyant sur le cadre option-critic avec coûts de délibération, nous ajoutons à chaque couche un contrôleur qui apprend quand changer d'ensemble d'experts et lesquels charger. En appliquant cette méthode à gpt-oss-20b avec des adaptateurs à faible rang et une récompense d'auto-distillation, notre approche réduit les taux de commutation de plus de 50 % à moins de 5 % tout en conservant jusqu'à 90 % de la précision du modèle de base sur MATH, MMLU et MMMLU. Cela montre que même des modèles pré-entraînés existants peuvent être convertis en MoEs temporellement étendus avec un entraînement léger, le coût de délibération permettant aux concepteurs d'arbitrer entre taux de commutation et capacités. Nous espérons que cela ouvre une voie rigoureuse, fondée sur le cadre des options, pour un service mémoire-efficace et un apprentissage continu dans des modèles MoE toujours plus grands.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Modèles Mixtes d'Experts à Extension Temporelle

Temporally Extended Mixture-of-Experts Models

Résumé

Support