Динамический поиск экспертов: улучшение рассуждений в моделях смеси экспертов (Mixture-of-Experts) для языковых моделей во время тестирования
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
September 26, 2025
Авторы: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
cs.AI
Аннотация
Масштабирование во время тестирования (Test-Time Scaling, TTS) улучшает способность крупных языковых моделей (LLM) к рассуждению за счет выделения дополнительных вычислительных ресурсов на этапе вывода. Однако существующие подходы в основном полагаются на выборку на уровне выходных данных, упуская из виду роль архитектуры модели. В популярных моделях Mixture-of-Experts (MoE) мы наблюдаем, что изменение количества активированных экспертов приводит к созданию дополнительных наборов решений с устойчивой точностью, что открывает новый и недостаточно изученный источник разнообразия. Вдохновленные этим наблюдением, мы предлагаем Dynamic Experts Search (DES) — стратегию TTS, которая превращает активацию экспертов в управляемый параметр пространства поиска. DES включает два ключевых компонента: (1) Dynamic MoE, который позволяет напрямую управлять количеством экспертов на этапе вывода для генерации разнообразных траекторий рассуждений без дополнительных затрат; и (2) Наследование конфигурации экспертов, которое сохраняет постоянное количество экспертов в рамках одной траектории рассуждений, варьируя его между запусками, тем самым балансируя стабильность и разнообразие в процессе поиска. Многочисленные эксперименты с архитектурами MoE, верификаторами и тестами на рассуждение (например, математика, код и знания) демонстрируют, что DES стабильно превосходит базовые подходы TTS, повышая точность и устойчивость без дополнительных затрат. Эти результаты подчеркивают DES как практичную и масштабируемую форму TTS, учитывающую архитектуру, и показывают, как структурная гибкость современных LLM может способствовать улучшению рассуждений.
English
Test-Time Scaling (TTS) enhances the reasoning ability of large language
models (LLMs) by allocating additional computation during inference. However,
existing approaches primarily rely on output-level sampling while overlooking
the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we
observe that varying the number of activated experts yields complementary
solution sets with stable accuracy, revealing a new and underexplored source of
diversity. Motivated by this observation, we propose Dynamic Experts Search
(DES), a TTS strategy that elevates expert activation into a controllable
dimension of the search space. DES integrates two key components: (1) Dynamic
MoE, which enables direct control of expert counts during inference to generate
diverse reasoning trajectories without additional cost; and (2) Expert
Configuration Inheritance, which preserves consistent expert counts within a
reasoning path while varying them across runs, thereby balancing stability and
diversity throughout the search. Extensive experiments across MoE
architectures, verifiers and reasoning benchmarks (i.e., math, code and
knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing
accuracy and stability without additional cost. These results highlight DES as
a practical and scalable form of architecture-aware TTS, illustrating how
structural flexibility in modern LLMs can advance reasoning.