Modelli Mistura di Esperti a Estensione Temporale

Abstract

I modelli Mixture-of-Experts (MoE), oggi popolari per scalare la capacità a velocità di inferenza fissa, attivano esperti diversi per quasi ogni token. Quando un modello supera la memoria GPU disponibile, questa alternanza continua può rendere inefficaci ottimizzazioni come l'offloading e il pre-fetching. Sosteniamo che il framework delle opzioni nell'apprendimento per rinforzo sia perfettamente adatto ad affrontare questo problema e proponiamo layer mixture-of-experts temporalmente estesi. Basandoci sul framework option-critic con costi di deliberazione, aggiungiamo un controller a ogni strato che impara quando cambiare l'insieme di esperti e quali caricare. Applicando questo metodo a gpt-oss-20b con adattatori low-rank e una ricompensa di auto-distillazione, la nostra tecnica riduce la frequenza di commutazione da oltre il 50% a meno del 5%, mantenendo fino al 90% dell'accuratezza del modello base su MATH, MMLU e MMMLU. Ciò dimostra che anche modelli pre-addestrati esistenti possono essere convertiti in MoE temporalmente estesi con un addestramento leggero, dove il costo di deliberazione consente ai trainer di modelli di bilanciare il tasso di commutazione con le capacità. Speriamo che questo apra una strada principiata, fondata sul framework delle opzioni, per un servizio efficiente in termini di memoria e un apprendimento continuo in modelli MoE in continua crescita.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Modelli Mistura di Esperti a Estensione Temporale

Temporally Extended Mixture-of-Experts Models

Abstract

Support