Chain-of-Experts: Раскрытие коммуникационного потенциала моделей типа Mixture-of-Experts
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
June 23, 2025
Авторы: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI
Аннотация
Мы предлагаем Chain-of-Experts (CoE), новую архитектуру Mixture-of-Experts (MoE), которая вводит последовательное взаимодействие экспертов внутри каждого слоя. В отличие от традиционных моделей MoE, где эксперты работают независимо и параллельно, CoE обрабатывает токены итеративно через цепочку экспертов внутри слоя. Для поддержки динамического выбора экспертов на каждой итерации CoE использует выделенный маршрутизатор на каждом шаге итерации внутри слоя. Этот дизайн позволяет токенам переоценивать и выбирать разных экспертов на каждой итерации, вместо статического назначения. В результате CoE вводит гибкий механизм маршрутизации, который увеличивает разнообразие комбинаций экспертов и обогащает репрезентативную способность модели. CoE демонстрирует улучшенную производительность при фиксированных вычислительных ресурсах: на задачах математического рассуждения она снижает ошибку валидации с 1.20 до 1.12 по сравнению со стандартной MoE. Помимо производительности, CoE предлагает новую ось масштабирования: глубину через итерацию экспертов, что дополняет традиционное масштабирование по ширине/глубине. Например, использование 2x итераций соответствует производительности 3x выбора экспертов (по ширине), при этом сокращая использование памяти на 17.6-42% по сравнению с другими стратегиями масштабирования. Наш анализ показывает, что преимущества CoE обусловлены её итеративной остаточной структурой и усиленной специализацией экспертов, поддерживаемой итеративной маршрутизацией, что вместе раскрывает более выразительные представления. Код доступен по адресу https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE)
architecture that introduces sequential expert communication within each layer.
Unlike traditional MoE models, where experts operate independently in parallel,
CoE processes tokens iteratively across a chain of experts inside a layer. To
support dynamic expert selection across iterations, CoE employs a dedicated
router at each iteration step within a layer. This design allows tokens to
re-evaluate and select different experts during each iteration, rather than
being statically assigned. As a result, CoE introduces a flexible routing
mechanism that increases the diversity of expert combinations and enriches the
model's representational capacity. CoE demonstrates improved performance under
fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to
1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling
axis: depth through expert iteration, which complements conventional
width/depth scaling. For example, using 2x iterations matches the performance
of 3x expert selections (in width), while reducing memory usage by 17.6-42%
relative to other scaling strategies. Our analysis reveals that CoE's benefits
stem from its iterative residual structure and enhanced expert specialization
empowered by iterative routing, which together unlock more expressive
representations. Code is available at https://github.com/ZihanWang314/coe.