C3PO: Kritische-Schicht, Kern-Experten, Kollaborative Pfadoptimierung für die Neuvermischung von Experten zur Testzeit
C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing
April 10, 2025
Autoren: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Zusammenfassung
Mixture-of-Experts (MoE) Large Language Models (LLMs) leiden unter stark suboptimalen Expertenpfaden – unsere Studie zeigt, dass die naive Expertenauswahl, die während des Vortrainings erlernt wird, eine überraschende Genauigkeitslücke von 10–20 % für Verbesserungen hinterlässt. Motiviert durch diese Beobachtung entwickeln wir eine neuartige Klasse von Optimierungsmethoden zur Testzeit, um die Experten in verschiedenen Schichten gemeinsam für jedes Testbeispiel neu zu gewichten oder „neu zu mischen“. Da die Grundwahrheit des Testbeispiels unbekannt ist, schlagen wir vor, ein Ersatzziel zu optimieren, das durch die „erfolgreichen Nachbarn“ des Beispiels aus einem Referenzsatz von Beispielen definiert wird. Wir führen drei Ersatzziele und Algorithmen ein, die auf Modusfindung, Kernel-Regression und dem durchschnittlichen Verlust ähnlicher Referenzbeispiele/-aufgaben basieren. Um die Kosten für die Optimierung ganzer Pfade zu reduzieren, wenden wir unsere Algorithmen lediglich auf die Mischgewichte der Kern-Experten in kritischen Schichten an, die eine ähnliche Leistung erzielen, aber erhebliche Rechenressourcen einsparen. Dies führt zu „Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)“. Wir wenden C3PO auf zwei aktuelle MoE-LLMs an und testen es anhand von sechs weit verbreiteten Benchmarks. Es verbessert das Basismodell durchgängig um 7–15 % in der Genauigkeit und übertrifft weit verbreitete Testzeit-Lern-Baselines, wie z. B. In-Context-Learning und Prompt-/Prefix-Tuning, deutlich. Darüber hinaus ermöglicht C3PO MoE-LLMs mit 1–3B aktiven Parametern, LLMs mit 7–9B Parametern zu übertreffen, wodurch die Effizienzvorteile von MoE weiter gesteigert werden. Unsere umfassende Ablationsstudie liefert zudem neue Einblicke in die Verbesserung von MoE zur Testzeit.
English
Mixture-of-Experts (MoE) Large Language Models (LLMs) suffer from severely
sub-optimal expert pathways-our study reveals that naive expert selection
learned from pretraining leaves a surprising 10-20% accuracy gap for
improvement. Motivated by this observation, we develop a novel class of
test-time optimization methods to re-weight or "re-mixing" the experts in
different layers jointly for each test sample. Since the test sample's ground
truth is unknown, we propose to optimize a surrogate objective defined by the
sample's "successful neighbors" from a reference set of samples. We introduce
three surrogates and algorithms based on mode-finding, kernel regression, and
the average loss of similar reference samples/tasks. To reduce the cost of
optimizing whole pathways, we apply our algorithms merely to the core experts'
mixing weights in critical layers, which enjoy similar performance but save
significant computation. This leads to "Critical-Layer, Core-Expert,
Collaborative Pathway Optimization (C3PO)". We apply C3PO to two recent MoE
LLMs and examine it on six widely-used benchmarks. It consistently improves the
base model by 7-15% in accuracy and outperforms widely used test-time learning
baselines, e.g., in-context learning and prompt/prefix tuning, by a large
margin. Moreover, C3PO enables MoE LLMs with 1-3B active parameters to
outperform LLMs of 7-9B parameters, hence improving MoE's advantages on
efficiency. Our thorough ablation study further sheds novel insights on
achieving test-time improvement on MoE.Summary
AI-Generated Summary