Dynamische Expertenauswahl: Verbesserung der Argumentationsfähigkeit in Mixture-of-Experts-LLMs zur Testzeit
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
papers.authors: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
papers.abstract
Test-Time Scaling (TTS) verbessert die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Schlussfolgern, indem zusätzliche Rechenleistung während der Inferenz zugewiesen wird. Bisherige Ansätze stützen sich jedoch hauptsächlich auf die Stichprobenbildung auf der Ausgabeebene und vernachlässigen die Rolle der Modellarchitektur. In gängigen Mixture-of-Experts (MoE)-LLMs beobachten wir, dass die Variation der Anzahl aktivierter Experten komplementäre Lösungsmengen mit stabiler Genauigkeit liefert, was eine neue und bisher wenig erforschte Quelle für Diversität offenbart. Motiviert durch diese Beobachtung schlagen wir Dynamic Experts Search (DES) vor, eine TTS-Strategie, die die Expertenaktivierung zu einer kontrollierbaren Dimension des Suchraums erhebt. DES integriert zwei Schlüsselkomponenten: (1) Dynamic MoE, das eine direkte Steuerung der Expertenanzahl während der Inferenz ermöglicht, um diverse Schlussfolgerungspfade ohne zusätzliche Kosten zu generieren; und (2) Expert Configuration Inheritance, das konsistente Expertenanzahlen innerhalb eines Schlussfolgerungspfads beibehält, während sie über verschiedene Durchläufe variiert werden, wodurch Stabilität und Diversität im gesamten Suchprozess ausbalanciert werden. Umfangreiche Experimente über MoE-Architekturen, Verifizierer und Schlussfolgerungsbenchmarks (z. B. Mathematik, Code und Wissen) zeigen, dass DES zuverlässig TTS-Baselines übertrifft und Genauigkeit sowie Stabilität ohne zusätzliche Kosten verbessert. Diese Ergebnisse unterstreichen DES als eine praktische und skalierbare Form der architekturbewussten TTS und verdeutlichen, wie strukturelle Flexibilität in modernen LLMs das logische Schlussfolgern vorantreiben kann.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.