Modelos de Mezcla de Expertos con Extensión Temporal

Resumen

Los modelos de Mezcla de Expertos (MoE), actualmente populares para escalar capacidad manteniendo velocidad de inferencia fija, cambian de experto en casi cada token. Cuando un modelo supera la memoria disponible de la GPU, esta fluctuación puede invalidar optimizaciones como la descarga y precarga de datos. Sostenemos que el marco de opciones en aprendizaje por refuerzo es ideal para abordar este problema, y proponemos capas de mezcla de expertos con extensión temporal. Basándonos en el marco option-critic con costes de deliberación, añadimos un controlador por capa que aprende cuándo cambiar conjuntos de expertos y cuáles cargar. Al aplicar esto a gpt-oss-20b con adaptadores de bajo rango y una recompensa de auto-destilación, nuestro método reduce las tasas de cambio de más del 50% a menos del 5%, conservando hasta el 90% de la precisión del modelo base en MATH, MMLU y MMMLU. Esto demuestra que incluso modelos preentrenados existentes pueden convertirse en MoEs temporalmente extendidos con entrenamiento ligero, permitiendo el coste de deliberación equilibrar tasas de cambio versus capacidad. Esperamos que esto abra una vía fundamentada en el marco de opciones para servicio eficiente en memoria y aprendizaje continuo en modelos MoE en constante crecimiento.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Modelos de Mezcla de Expertos con Extensión Temporal

Temporally Extended Mixture-of-Experts Models

Resumen

Support