Zeitlich Erweiterte Mixture-of-Experts-Modelle

Zusammenfassung

Mixture-of-Experts-Modelle, die derzeit beliebt sind, um die Kapazität bei fester Inferenzgeschwindigkeit zu skalieren, weisen Experten nahezu bei jedem Token um. Sobald ein Modell den verfügbaren GPU-Speicher übersteigt, kann diese hohe Fluktuation Optimierungen wie Offloading und Prefetching unwirksam machen. Wir argumentieren, dass das Optionsframework aus dem Reinforcement Learning ideal geeignet ist, um dieses Problem zu lösen, und plädieren für zeitlich erweiterte Mixture-of-Experts-Schichten. Aufbauend auf dem Option-Critic-Framework mit Deliberationskosten ergänzen wir jede Schicht um einen Controller, der lernt, wann Expertensets gewechselt und welche geladen werden sollen. Durch die Anwendung auf gpt-oss-20b mit Low-Rank-Adaptern und einer Self-Distillation-Belohnung reduziert unsere Methode die Wechselraten von über 50 % auf unter 5 %, wobei bis zu 90 % der Genauigkeit des Basismodells auf MATH, MMLU und MMMLU erhalten bleiben. Dies zeigt, dass selbst bereits vortrainierte Modelle durch leichtgewichtiges Training in zeitlich erweiterte MoEs umgewandelt werden können, wobei die Deliberationskosten es Modelltrainern ermöglichen, Wechselraten gegen Fähigkeiten abzuwägen. Wir hoffen, dass dies einen prinzipbasierten Weg eröffnet, der im Optionsframework verankert ist, für speichereffizientes Bereitstellen und kontinuierliches Lernen in stetig wachsenden MoE-Modellen.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Zeitlich Erweiterte Mixture-of-Experts-Modelle

Temporally Extended Mixture-of-Experts Models

Zusammenfassung

Support