Reconfiguración Dinámica de Expertos: Reruteo Continuo para una Mejor Adaptación en Línea en Modelos de Mezcla de Expertos
Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models
October 16, 2025
Autores: Guinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping
cs.AI
Resumen
Los modelos de Mezcla de Expertos (MoE, por sus siglas en inglés) logran una escalabilidad eficiente mediante la activación dispersa de expertos, pero a menudo sufren decisiones de enrutamiento subóptimas debido a cambios en la distribución durante la implementación. Si bien los métodos existentes de adaptación en tiempo de prueba podrían abordar potencialmente estos problemas, se centran principalmente en modelos densos y requieren acceso a datos externos, lo que limita su aplicabilidad práctica en arquitecturas MoE. Sin embargo, descubrimos que, en lugar de depender de datos de referencia, podemos optimizar la selección de expertos MoE sobre la marcha basándonos únicamente en el contexto de entrada. Por ello, proponemos un marco en tiempo de prueba en línea y sin datos que adapta continuamente las decisiones de enrutamiento MoE durante la generación de texto sin supervisión externa ni datos adicionales. Nuestro método alterna entre dos fases: durante la etapa de precarga y, posteriormente, en intervalos regulares, optimizamos las decisiones de enrutamiento del modelo utilizando autosupervisión basada en la secuencia ya generada. Luego, generamos texto de manera normal, manteniendo el enrutador modificado hasta la siguiente adaptación. Implementamos esto mediante vectores aditivos ligeros que solo actualizan los logits del enrutador en capas seleccionadas, manteniendo la eficiencia computacional mientras se previene la sobreadaptación. Los resultados experimentales muestran mejoras consistentes en tareas de razonamiento desafiantes, manteniendo la robustez frente a cambios de contexto. Por ejemplo, nuestro método logra una mejora del 5.5\% en HumanEval con OLMoE. Además, gracias a su propiedad de plug-and-play, nuestro método complementa naturalmente las técnicas existentes de escalado en tiempo de prueba, por ejemplo, logrando mejoras promedio del 6\% cuando se combina con autocoherencia en DeepSeek-V2-Lite.
English
Mixture-of-Experts (MoE) models achieve efficient scaling through sparse
expert activation, but often suffer from suboptimal routing decisions due to
distribution shifts in deployment. While existing test-time adaptation methods
could potentially address these issues, they primarily focus on dense models
and require access to external data, limiting their practical applicability to
MoE architectures. However, we find that, instead of relying on reference data,
we can optimize MoE expert selection on-the-fly based only on input context. As
such, we propose a data-free, online test-time framework that
continuously adapts MoE routing decisions during text generation without
external supervision or data. Our method cycles between two phases: During the
prefill stage, and later in regular intervals, we optimize the routing
decisions of the model using self-supervision based on the already generated
sequence. Then, we generate text as normal, maintaining the modified router
until the next adaption. We implement this through lightweight additive vectors
that only update router logits in selected layers, maintaining computational
efficiency while preventing over-adaptation. The experimental results show
consistent performance gains on challenging reasoning tasks while maintaining
robustness to context shifts. For example, our method achieves a 5.5\%
improvement on HumanEval with OLMoE. Furthermore, owing to its plug-and-play
property, our method naturally complements existing test-time scaling
techniques, e.g., achieving 6\% average gains when incorporated with
self-consistency on DeepSeek-V2-Lite.