Tijdelijk Uitgebreide Mixture-of-Experts Modellen

Samenvatting

Mixture-of-Experts-modellen, die tegenwoordig populair zijn om de capaciteit te vergroten bij een vaste inferentiesnelheid, schakelen bijna elk token van expert. Zodra een model de beschikbare GPU-geheugencapaciteit overstijgt, kan deze constante wisseling optimalisaties zoals offloading en pre-fetching ondoeltreffend maken. Wij betogen dat het *options*-raamwerk uit de reinforcement learning bij uitstek geschikt is om dit probleem aan te pakken en pleiten voor *temporally extended* Mixture-of-Experts-lagen. Voortbordurend op het *option-critic*-raamwerk met deliberatiekosten voegen we aan elke laag een controller toe die leert wanneer te wisselen van expert-set en welke te laden. Door dit toe te passen op GPT-OSS-20B met *low-rank adapters* en een *self-distillation*-beloning, verlaagt onze methode de wisselfrequentie van meer dan 50% naar minder dan 5%, terwijl tot 90% van de nauwkeurigheid van het basismodel behouden blijft op MATH, MMLU en MMMLU. Dit toont aan dat zelfs bestaande vooraf getrainde modellen met lichtgewicht training kunnen worden omgezet naar *temporally extended* MoE's, waarbij de deliberatiekosten modeltrainers in staat stelt een afweging te maken tussen wisselfrequentie en capaciteit. Wij hopen dat dit een principieel pad opent, verankerd in het *options*-raamwerk, voor geheugenefficiënte *serving* en continu leren in alsmaar groeiende MoE-modellen.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Tijdelijk Uitgebreide Mixture-of-Experts Modellen

Temporally Extended Mixture-of-Experts Models

Samenvatting

Support