Dynamische Experts Zoeken: Verbetering van Redeneren in Mixture-of-Experts LLMs tijdens Testtijd
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
Auteurs: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
Samenvatting
Test-Time Scaling (TTS) verbetert het redeneervermogen van grote taalmodelen (LLMs) door extra rekenkracht toe te wijzen tijdens inferentie. Bestaande benaderingen vertrouwen echter voornamelijk op output-level sampling en negeren de rol van modelarchitectuur. In mainstream Mixture-of-Experts (MoE) LLMs observeren we dat het variëren van het aantal geactiveerde experts complementaire oplossingssets oplevert met stabiele nauwkeurigheid, wat een nieuwe en onderbelichte bron van diversiteit onthult. Gemotiveerd door deze observatie stellen we Dynamic Experts Search (DES) voor, een TTS-strategie die expertactivatie verheft tot een controleerbare dimensie van de zoekruimte. DES integreert twee belangrijke componenten: (1) Dynamic MoE, dat directe controle over het aantal experts mogelijk maakt tijdens inferentie om diverse redeneertrajecten te genereren zonder extra kosten; en (2) Expert Configuration Inheritance, dat consistente expertaantallen binnen een redeneerpad behoudt terwijl ze tussen runs variëren, waardoor stabiliteit en diversiteit in balans blijven tijdens het zoeken. Uitgebreide experimenten over MoE-architecturen, verifiers en redeneerbenchmarks (d.w.z. wiskunde, code en kennis) tonen aan dat DES consistent beter presteert dan TTS-baselines, waarbij nauwkeurigheid en stabiliteit worden verbeterd zonder extra kosten. Deze resultaten benadrukken DES als een praktische en schaalbare vorm van architectuurbewuste TTS, en illustreren hoe structurele flexibiliteit in moderne LLMs redeneren kan bevorderen.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.