Búsqueda Dinámica de Expertos: Mejorando el Razonamiento en Modelos de Lenguaje de Mezcla de Expertos durante la Fase de Prueba
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
Autores: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
Resumen
El Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) mejora la capacidad de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al asignar computación adicional durante la inferencia. Sin embargo, los enfoques existentes se basan principalmente en el muestreo a nivel de salida, pasando por alto el papel de la arquitectura del modelo. En los LLMs principales basados en Mezcla de Expertos (MoE, por sus siglas en inglés), observamos que variar el número de expertos activados produce conjuntos de soluciones complementarios con precisión estable, revelando una fuente de diversidad nueva y poco explorada. Motivados por esta observación, proponemos Búsqueda Dinámica de Expertos (DES, por sus siglas en inglés), una estrategia TTS que eleva la activación de expertos a una dimensión controlable del espacio de búsqueda. DES integra dos componentes clave: (1) MoE Dinámico, que permite el control directo del número de expertos durante la inferencia para generar trayectorias de razonamiento diversas sin costos adicionales; y (2) Herencia de Configuración de Expertos, que preserva un número consistente de expertos dentro de una ruta de razonamiento mientras los varía entre ejecuciones, equilibrando así estabilidad y diversidad durante la búsqueda. Experimentos extensos en arquitecturas MoE, verificadores y benchmarks de razonamiento (es decir, matemáticas, código y conocimiento) demuestran que DES supera de manera confiable los baselines TTS, mejorando la precisión y la estabilidad sin costos adicionales. Estos resultados destacan a DES como una forma práctica y escalable de TTS consciente de la arquitectura, ilustrando cómo la flexibilidad estructural en los LLMs modernos puede avanzar el razonamiento.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.