ChatPaper.aiChatPaper

Chain-of-Experts: Раскрытие коммуникационного потенциала моделей типа Mixture-of-Experts

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

June 23, 2025
Авторы: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI

Аннотация

Мы предлагаем Chain-of-Experts (CoE), новую архитектуру Mixture-of-Experts (MoE), которая вводит последовательное взаимодействие экспертов внутри каждого слоя. В отличие от традиционных моделей MoE, где эксперты работают независимо и параллельно, CoE обрабатывает токены итеративно через цепочку экспертов внутри слоя. Для поддержки динамического выбора экспертов на каждой итерации CoE использует выделенный маршрутизатор на каждом шаге итерации внутри слоя. Этот дизайн позволяет токенам переоценивать и выбирать разных экспертов на каждой итерации, вместо статического назначения. В результате CoE вводит гибкий механизм маршрутизации, который увеличивает разнообразие комбинаций экспертов и обогащает репрезентативную способность модели. CoE демонстрирует улучшенную производительность при фиксированных вычислительных ресурсах: на задачах математического рассуждения она снижает ошибку валидации с 1.20 до 1.12 по сравнению со стандартной MoE. Помимо производительности, CoE предлагает новую ось масштабирования: глубину через итерацию экспертов, что дополняет традиционное масштабирование по ширине/глубине. Например, использование 2x итераций соответствует производительности 3x выбора экспертов (по ширине), при этом сокращая использование памяти на 17.6-42% по сравнению с другими стратегиями масштабирования. Наш анализ показывает, что преимущества CoE обусловлены её итеративной остаточной структурой и усиленной специализацией экспертов, поддерживаемой итеративной маршрутизацией, что вместе раскрывает более выразительные представления. Код доступен по адресу https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE) architecture that introduces sequential expert communication within each layer. Unlike traditional MoE models, where experts operate independently in parallel, CoE processes tokens iteratively across a chain of experts inside a layer. To support dynamic expert selection across iterations, CoE employs a dedicated router at each iteration step within a layer. This design allows tokens to re-evaluate and select different experts during each iteration, rather than being statically assigned. As a result, CoE introduces a flexible routing mechanism that increases the diversity of expert combinations and enriches the model's representational capacity. CoE demonstrates improved performance under fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to 1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling axis: depth through expert iteration, which complements conventional width/depth scaling. For example, using 2x iterations matches the performance of 3x expert selections (in width), while reducing memory usage by 17.6-42% relative to other scaling strategies. Our analysis reveals that CoE's benefits stem from its iterative residual structure and enhanced expert specialization empowered by iterative routing, which together unlock more expressive representations. Code is available at https://github.com/ZihanWang314/coe.
PDF321June 25, 2025