Búsqueda Dinámica de Expertos: Mejorando el Razonamiento en Modelos de Lenguaje de Mezcla de Expertos durante la Fase de Prueba

Resumen

El Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) mejora la capacidad de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al asignar computación adicional durante la inferencia. Sin embargo, los enfoques existentes se basan principalmente en el muestreo a nivel de salida, pasando por alto el papel de la arquitectura del modelo. En los LLMs principales basados en Mezcla de Expertos (MoE, por sus siglas en inglés), observamos que variar el número de expertos activados produce conjuntos de soluciones complementarios con precisión estable, revelando una fuente de diversidad nueva y poco explorada. Motivados por esta observación, proponemos Búsqueda Dinámica de Expertos (DES, por sus siglas en inglés), una estrategia TTS que eleva la activación de expertos a una dimensión controlable del espacio de búsqueda. DES integra dos componentes clave: (1) MoE Dinámico, que permite el control directo del número de expertos durante la inferencia para generar trayectorias de razonamiento diversas sin costos adicionales; y (2) Herencia de Configuración de Expertos, que preserva un número consistente de expertos dentro de una ruta de razonamiento mientras los varía entre ejecuciones, equilibrando así estabilidad y diversidad durante la búsqueda. Experimentos extensos en arquitecturas MoE, verificadores y benchmarks de razonamiento (es decir, matemáticas, código y conocimiento) demuestran que DES supera de manera confiable los baselines TTS, mejorando la precisión y la estabilidad sin costos adicionales. Estos resultados destacan a DES como una forma práctica y escalable de TTS consciente de la arquitectura, ilustrando cómo la flexibilidad estructural en los LLMs modernos puede avanzar el razonamiento.

English

Test-Time Scaling (TTS) enhances the reasoning ability of large language models (LLMs) by allocating additional computation during inference. However, existing approaches primarily rely on output-level sampling while overlooking the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we observe that varying the number of activated experts yields complementary solution sets with stable accuracy, revealing a new and underexplored source of diversity. Motivated by this observation, we propose Dynamic Experts Search (DES), a TTS strategy that elevates expert activation into a controllable dimension of the search space. DES integrates two key components: (1) Dynamic MoE, which enables direct control of expert counts during inference to generate diverse reasoning trajectories without additional cost; and (2) Expert Configuration Inheritance, which preserves consistent expert counts within a reasoning path while varying them across runs, thereby balancing stability and diversity throughout the search. Extensive experiments across MoE architectures, verifiers and reasoning benchmarks (i.e., math, code and knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing accuracy and stability without additional cost. These results highlight DES as a practical and scalable form of architecture-aware TTS, illustrating how structural flexibility in modern LLMs can advance reasoning.

Búsqueda Dinámica de Expertos: Mejorando el Razonamiento en Modelos de Lenguaje de Mezcla de Expertos durante la Fase de Prueba

Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time

Resumen

Support