Ricerca Dinamica degli Esperti: Migliorare il Ragionamento nei Modelli Linguistici a Miscela di Esperti durante il Test

Abstract

Il Test-Time Scaling (TTS) migliora la capacità di ragionamento dei grandi modelli linguistici (LLM) allocando ulteriori risorse computazionali durante l'inferenza. Tuttavia, gli approcci esistenti si basano principalmente sul campionamento a livello di output, trascurando il ruolo dell'architettura del modello. Nei principali LLM basati su Mixture-of-Experts (MoE), osserviamo che variare il numero di esperti attivati produce insiemi di soluzioni complementari con un'accuratezza stabile, rivelando una nuova e poco esplorata fonte di diversità. Motivati da questa osservazione, proponiamo il Dynamic Experts Search (DES), una strategia TTS che eleva l'attivazione degli esperti a una dimensione controllabile dello spazio di ricerca. DES integra due componenti chiave: (1) Dynamic MoE, che consente il controllo diretto del numero di esperti durante l'inferenza per generare traiettorie di ragionamento diverse senza costi aggiuntivi; e (2) l'Ereditarietà della Configurazione degli Esperti, che mantiene un numero coerente di esperti all'interno di un percorso di ragionamento mentre li varia tra le esecuzioni, bilanciando così stabilità e diversità durante la ricerca. Esperimenti estesi su architetture MoE, verificatori e benchmark di ragionamento (ad esempio, matematica, codice e conoscenza) dimostrano che DES supera in modo affidabile i baseline TTS, migliorando accuratezza e stabilità senza costi aggiuntivi. Questi risultati evidenziano DES come una forma pratica e scalabile di TTS consapevole dell'architettura, illustrando come la flessibilità strutturale nei moderni LLM possa avanzare il ragionamento.

English

Test-Time Scaling (TTS) enhances the reasoning ability of large language models (LLMs) by allocating additional computation during inference. However, existing approaches primarily rely on output-level sampling while overlooking the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we observe that varying the number of activated experts yields complementary solution sets with stable accuracy, revealing a new and underexplored source of diversity. Motivated by this observation, we propose Dynamic Experts Search (DES), a TTS strategy that elevates expert activation into a controllable dimension of the search space. DES integrates two key components: (1) Dynamic MoE, which enables direct control of expert counts during inference to generate diverse reasoning trajectories without additional cost; and (2) Expert Configuration Inheritance, which preserves consistent expert counts within a reasoning path while varying them across runs, thereby balancing stability and diversity throughout the search. Extensive experiments across MoE architectures, verifiers and reasoning benchmarks (i.e., math, code and knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing accuracy and stability without additional cost. These results highlight DES as a practical and scalable form of architecture-aware TTS, illustrating how structural flexibility in modern LLMs can advance reasoning.

Ricerca Dinamica degli Esperti: Migliorare il Ragionamento nei Modelli Linguistici a Miscela di Esperti durante il Test

Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time

Abstract

Support