Experten-Neuverdrahtung im laufenden Betrieb: Kontinuierliche Umleitung für bessere Online-Anpassung in Mixture-of-Experts-Modellen
Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models
October 16, 2025
papers.authors: Guinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping
cs.AI
papers.abstract
Mixture-of-Experts (MoE)-Modelle erreichen effiziente Skalierung durch spärliche Expertenaktivierung, leiden jedoch häufig unter suboptimalen Routing-Entscheidungen aufgrund von Verteilungsverschiebungen im Einsatz. Obwohl bestehende Methoden zur Testzeit-Anpassung diese Probleme potenziell lösen könnten, konzentrieren sie sich hauptsächlich auf dichte Modelle und erfordern Zugriff auf externe Daten, was ihre praktische Anwendbarkeit auf MoE-Architekturen einschränkt. Wir stellen jedoch fest, dass wir anstelle der Verwendung von Referenzdaten die Expertenauswahl in MoE-Modellen dynamisch basierend auf dem Eingabekontext optimieren können. Daher schlagen wir ein datenfreies, online Testzeit-Framework vor, das MoE-Routing-Entscheidungen kontinuierlich während der Textgenerierung ohne externe Überwachung oder Daten anpasst. Unser Verfahren wechselt zwischen zwei Phasen: Während der Prefill-Phase und später in regelmäßigen Abständen optimieren wir die Routing-Entscheidungen des Modells durch Selbstüberwachung basierend auf der bereits generierten Sequenz. Anschließend generieren wir Text wie gewohnt und behalten das modifizierte Routing bis zur nächsten Anpassung bei. Dies implementieren wir durch leichtgewichtige additive Vektoren, die nur die Router-Logits in ausgewählten Schichten aktualisieren, wodurch die Recheneffizienz erhalten bleibt und eine Überanpassung verhindert wird. Die experimentellen Ergebnisse zeigen konsistente Leistungssteigerungen bei anspruchsvollen Denkaufgaben bei gleichzeitiger Robustheit gegenüber Kontextverschiebungen. Beispielsweise erzielt unsere Methode eine Verbesserung von 5,5 % auf HumanEval mit OLMoE. Darüber hinaus ergänzt unsere Methode aufgrund ihrer Plug-and-Play-Eigenschaft bestehende Testzeit-Skalierungstechniken nahtlos, z. B. durchschnittliche Verbesserungen von 6 %, wenn sie mit Self-Consistency auf DeepSeek-V2-Lite kombiniert wird.
English
Mixture-of-Experts (MoE) models achieve efficient scaling through sparse
expert activation, but often suffer from suboptimal routing decisions due to
distribution shifts in deployment. While existing test-time adaptation methods
could potentially address these issues, they primarily focus on dense models
and require access to external data, limiting their practical applicability to
MoE architectures. However, we find that, instead of relying on reference data,
we can optimize MoE expert selection on-the-fly based only on input context. As
such, we propose a data-free, online test-time framework that
continuously adapts MoE routing decisions during text generation without
external supervision or data. Our method cycles between two phases: During the
prefill stage, and later in regular intervals, we optimize the routing
decisions of the model using self-supervision based on the already generated
sequence. Then, we generate text as normal, maintaining the modified router
until the next adaption. We implement this through lightweight additive vectors
that only update router logits in selected layers, maintaining computational
efficiency while preventing over-adaptation. The experimental results show
consistent performance gains on challenging reasoning tasks while maintaining
robustness to context shifts. For example, our method achieves a 5.5\%
improvement on HumanEval with OLMoE. Furthermore, owing to its plug-and-play
property, our method naturally complements existing test-time scaling
techniques, e.g., achieving 6\% average gains when incorporated with
self-consistency on DeepSeek-V2-Lite.