Busca Dinâmica de Especialistas: Aprimorando o Raciocínio em Modelos de Linguagem de Mistura de Especialistas Durante o Teste
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
Autores: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
Resumo
O Escalonamento em Tempo de Teste (TTS) aprimora a capacidade de raciocínio de modelos de linguagem de grande escala (LLMs) ao alocar computação adicional durante a inferência. No entanto, as abordagens existentes dependem principalmente da amostragem no nível de saída, negligenciando o papel da arquitetura do modelo. Em LLMs convencionais baseados em Mistura de Especialistas (MoE), observamos que variar o número de especialistas ativados produz conjuntos de soluções complementares com precisão estável, revelando uma nova e pouco explorada fonte de diversidade. Motivados por essa observação, propomos a Busca Dinâmica de Especialistas (DES), uma estratégia de TTS que eleva a ativação de especialistas a uma dimensão controlável do espaço de busca. O DES integra dois componentes principais: (1) MoE Dinâmico, que permite o controle direto do número de especialistas durante a inferência para gerar trajetórias de raciocínio diversas sem custo adicional; e (2) Herança de Configuração de Especialistas, que preserva contagens consistentes de especialistas em um caminho de raciocínio, variando-as entre execuções, equilibrando assim estabilidade e diversidade ao longo da busca. Experimentos extensivos em arquiteturas MoE, verificadores e benchmarks de raciocínio (ou seja, matemática, código e conhecimento) demonstram que o DES supera consistentemente as abordagens de TTS existentes, melhorando a precisão e a estabilidade sem custo adicional. Esses resultados destacam o DES como uma forma prática e escalável de TTS consciente da arquitetura, ilustrando como a flexibilidade estrutural em LLMs modernos pode avançar o raciocínio.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.