Ricerca Dinamica degli Esperti: Migliorare il Ragionamento nei Modelli Linguistici a Miscela di Esperti durante il Test
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
Autori: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
Abstract
Il Test-Time Scaling (TTS) migliora la capacità di ragionamento dei grandi modelli linguistici (LLM) allocando ulteriori risorse computazionali durante l'inferenza. Tuttavia, gli approcci esistenti si basano principalmente sul campionamento a livello di output, trascurando il ruolo dell'architettura del modello. Nei principali LLM basati su Mixture-of-Experts (MoE), osserviamo che variare il numero di esperti attivati produce insiemi di soluzioni complementari con un'accuratezza stabile, rivelando una nuova e poco esplorata fonte di diversità. Motivati da questa osservazione, proponiamo il Dynamic Experts Search (DES), una strategia TTS che eleva l'attivazione degli esperti a una dimensione controllabile dello spazio di ricerca. DES integra due componenti chiave: (1) Dynamic MoE, che consente il controllo diretto del numero di esperti durante l'inferenza per generare traiettorie di ragionamento diverse senza costi aggiuntivi; e (2) l'Ereditarietà della Configurazione degli Esperti, che mantiene un numero coerente di esperti all'interno di un percorso di ragionamento mentre li varia tra le esecuzioni, bilanciando così stabilità e diversità durante la ricerca. Esperimenti estesi su architetture MoE, verificatori e benchmark di ragionamento (ad esempio, matematica, codice e conoscenza) dimostrano che DES supera in modo affidabile i baseline TTS, migliorando accuratezza e stabilità senza costi aggiuntivi. Questi risultati evidenziano DES come una forma pratica e scalabile di TTS consapevole dell'architettura, illustrando come la flessibilità strutturale nei moderni LLM possa avanzare il ragionamento.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.