ChatPaper.aiChatPaper

Reconfiguração Dinâmica de Especialistas: Roteamento Contínuo para Melhor Adaptação Online em Modelos de Mistura de Especialistas

Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

October 16, 2025
Autores: Guinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping
cs.AI

Resumo

Modelos de Mistura de Especialistas (MoE) alcançam escalabilidade eficiente por meio da ativação esparsa de especialistas, mas frequentemente sofrem com decisões de roteamento subótimas devido a mudanças de distribuição durante a implantação. Embora os métodos existentes de adaptação em tempo de teste possam potencialmente abordar esses problemas, eles se concentram principalmente em modelos densos e exigem acesso a dados externos, limitando sua aplicabilidade prática em arquiteturas MoE. No entanto, descobrimos que, em vez de depender de dados de referência, podemos otimizar a seleção de especialistas MoE em tempo real com base apenas no contexto de entrada. Assim, propomos uma estrutura de teste em tempo online e sem dados que adapta continuamente as decisões de roteamento MoE durante a geração de texto sem supervisão ou dados externos. Nosso método alterna entre duas fases: Durante o estágio de preenchimento e, posteriormente, em intervalos regulares, otimizamos as decisões de roteamento do modelo usando auto-supervisão com base na sequência já gerada. Em seguida, geramos texto normalmente, mantendo o roteador modificado até a próxima adaptação. Implementamos isso por meio de vetores aditivos leves que atualizam apenas os logits do roteador em camadas selecionadas, mantendo a eficiência computacional enquanto evitam a superadaptação. Os resultados experimentais mostram ganhos consistentes de desempenho em tarefas desafiadoras de raciocínio, mantendo a robustez a mudanças de contexto. Por exemplo, nosso método alcança uma melhoria de 5,5% no HumanEval com OLMoE. Além disso, devido à sua propriedade plug-and-play, nosso método complementa naturalmente as técnicas existentes de escalabilidade em tempo de teste, por exemplo, alcançando ganhos médios de 6% quando incorporado com auto-consistência no DeepSeek-V2-Lite.
English
Mixture-of-Experts (MoE) models achieve efficient scaling through sparse expert activation, but often suffer from suboptimal routing decisions due to distribution shifts in deployment. While existing test-time adaptation methods could potentially address these issues, they primarily focus on dense models and require access to external data, limiting their practical applicability to MoE architectures. However, we find that, instead of relying on reference data, we can optimize MoE expert selection on-the-fly based only on input context. As such, we propose a data-free, online test-time framework that continuously adapts MoE routing decisions during text generation without external supervision or data. Our method cycles between two phases: During the prefill stage, and later in regular intervals, we optimize the routing decisions of the model using self-supervision based on the already generated sequence. Then, we generate text as normal, maintaining the modified router until the next adaption. We implement this through lightweight additive vectors that only update router logits in selected layers, maintaining computational efficiency while preventing over-adaptation. The experimental results show consistent performance gains on challenging reasoning tasks while maintaining robustness to context shifts. For example, our method achieves a 5.5\% improvement on HumanEval with OLMoE. Furthermore, owing to its plug-and-play property, our method naturally complements existing test-time scaling techniques, e.g., achieving 6\% average gains when incorporated with self-consistency on DeepSeek-V2-Lite.
PDF33October 20, 2025