Experten-Neuverdrahtung im laufenden Betrieb: Kontinuierliche Umleitung für bessere Online-Anpassung in Mixture-of-Experts-Modellen

papers.abstract

Mixture-of-Experts (MoE)-Modelle erreichen effiziente Skalierung durch spärliche Expertenaktivierung, leiden jedoch häufig unter suboptimalen Routing-Entscheidungen aufgrund von Verteilungsverschiebungen im Einsatz. Obwohl bestehende Methoden zur Testzeit-Anpassung diese Probleme potenziell lösen könnten, konzentrieren sie sich hauptsächlich auf dichte Modelle und erfordern Zugriff auf externe Daten, was ihre praktische Anwendbarkeit auf MoE-Architekturen einschränkt. Wir stellen jedoch fest, dass wir anstelle der Verwendung von Referenzdaten die Expertenauswahl in MoE-Modellen dynamisch basierend auf dem Eingabekontext optimieren können. Daher schlagen wir ein datenfreies, online Testzeit-Framework vor, das MoE-Routing-Entscheidungen kontinuierlich während der Textgenerierung ohne externe Überwachung oder Daten anpasst. Unser Verfahren wechselt zwischen zwei Phasen: Während der Prefill-Phase und später in regelmäßigen Abständen optimieren wir die Routing-Entscheidungen des Modells durch Selbstüberwachung basierend auf der bereits generierten Sequenz. Anschließend generieren wir Text wie gewohnt und behalten das modifizierte Routing bis zur nächsten Anpassung bei. Dies implementieren wir durch leichtgewichtige additive Vektoren, die nur die Router-Logits in ausgewählten Schichten aktualisieren, wodurch die Recheneffizienz erhalten bleibt und eine Überanpassung verhindert wird. Die experimentellen Ergebnisse zeigen konsistente Leistungssteigerungen bei anspruchsvollen Denkaufgaben bei gleichzeitiger Robustheit gegenüber Kontextverschiebungen. Beispielsweise erzielt unsere Methode eine Verbesserung von 5,5 % auf HumanEval mit OLMoE. Darüber hinaus ergänzt unsere Methode aufgrund ihrer Plug-and-Play-Eigenschaft bestehende Testzeit-Skalierungstechniken nahtlos, z. B. durchschnittliche Verbesserungen von 6 %, wenn sie mit Self-Consistency auf DeepSeek-V2-Lite kombiniert wird.

English

Mixture-of-Experts (MoE) models achieve efficient scaling through sparse expert activation, but often suffer from suboptimal routing decisions due to distribution shifts in deployment. While existing test-time adaptation methods could potentially address these issues, they primarily focus on dense models and require access to external data, limiting their practical applicability to MoE architectures. However, we find that, instead of relying on reference data, we can optimize MoE expert selection on-the-fly based only on input context. As such, we propose a data-free, online test-time framework that continuously adapts MoE routing decisions during text generation without external supervision or data. Our method cycles between two phases: During the prefill stage, and later in regular intervals, we optimize the routing decisions of the model using self-supervision based on the already generated sequence. Then, we generate text as normal, maintaining the modified router until the next adaption. We implement this through lightweight additive vectors that only update router logits in selected layers, maintaining computational efficiency while preventing over-adaptation. The experimental results show consistent performance gains on challenging reasoning tasks while maintaining robustness to context shifts. For example, our method achieves a 5.5\% improvement on HumanEval with OLMoE. Furthermore, owing to its plug-and-play property, our method naturally complements existing test-time scaling techniques, e.g., achieving 6\% average gains when incorporated with self-consistency on DeepSeek-V2-Lite.

Experten-Neuverdrahtung im laufenden Betrieb: Kontinuierliche Umleitung für bessere Online-Anpassung in Mixture-of-Experts-Modellen

Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

papers.abstract

Support