Recherche Dynamique d'Experts : Amélioration du Raisonnement dans les Modèles de Langage à Mélange d'Experts lors de la Phase de Test
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
papers.authors: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
papers.abstract
Le Test-Time Scaling (TTS) améliore la capacité de raisonnement des grands modèles de langage (LLMs) en allouant des ressources de calcul supplémentaires lors de l'inférence. Cependant, les approches existantes reposent principalement sur un échantillonnage au niveau de la sortie, tout en négligeant le rôle de l'architecture du modèle. Dans les LLMs basés sur le Mixture-of-Experts (MoE) couramment utilisés, nous observons que la variation du nombre d'experts activés produit des ensembles de solutions complémentaires avec une précision stable, révélant ainsi une source de diversité nouvelle et peu explorée. Motivés par cette observation, nous proposons le Dynamic Experts Search (DES), une stratégie de TTS qui élève l'activation des experts en une dimension contrôlable de l'espace de recherche. DES intègre deux composants clés : (1) le Dynamic MoE, qui permet un contrôle direct du nombre d'experts pendant l'inférence pour générer des trajectoires de raisonnement diversifiées sans coût supplémentaire ; et (2) l'Expert Configuration Inheritance, qui maintient un nombre d'experts cohérent au sein d'un chemin de raisonnement tout en le variant entre les exécutions, équilibrant ainsi stabilité et diversité tout au long de la recherche. Des expériences approfondies sur diverses architectures MoE, vérificateurs et benchmarks de raisonnement (par exemple, mathématiques, code et connaissances) démontrent que DES surpasse de manière fiable les approches de TTS de référence, améliorant la précision et la stabilité sans coût supplémentaire. Ces résultats mettent en avant DES comme une forme pratique et évolutive de TTS conscient de l'architecture, illustrant comment la flexibilité structurelle des LLMs modernes peut faire progresser le raisonnement.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.