Modelos de Mistura de Especialistas com Extensão Temporal

Resumo

Os modelos de Mistura de Especialistas (MoE), agora populares para escalar a capacidade mantendo a velocidade de inferência fixa, alternam especialistas em quase todos os tokens. Quando um modelo excede a memória disponível da GPU, essa alternância frequente pode tornar ineficazes otimizações como descarregamento e pré-busca de dados. Defendemos que a estrutura de opções no aprendizado por reforço é ideal para resolver esse problema e propomos camadas de mistura de especialistas com extensão temporal. Com base na estrutura option-critic com custos de deliberação, adicionamos um controlador a cada camada que aprende quando alternar conjuntos de especialistas e quais carregar. Ao aplicar isso ao gpt-oss-20b com adaptadores de baixo posto e uma recompensa de auto-distilação, nosso método reduz as taxas de alternância de mais de 50% para menos de 5%, mantendo até 90% da precisão do modelo base em MATH, MMLU e MMMLU. Isso demonstra que mesmo modelos pré-treinados existentes podem ser convertidos em MoEs temporalmente estendidos com treinamento leve, onde o custo de deliberação permite aos treinadores negociar taxas de alternância versus capacidade. Esperamos que isso abra um caminho fundamentado na estrutura de opções para servir modelos de forma eficiente em memória e para aprendizado contínuo em modelos MoE em constante crescimento.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Modelos de Mistura de Especialistas com Extensão Temporal

Temporally Extended Mixture-of-Experts Models

Resumo

Support