Chain-of-Experts : Libérer la puissance de communication des modèles Mixture-of-Experts
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
June 23, 2025
Auteurs: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI
Résumé
Nous proposons Chain-of-Experts (CoE), une nouvelle architecture de type Mixture-of-Experts (MoE) qui introduit une communication séquentielle entre experts au sein de chaque couche. Contrairement aux modèles MoE traditionnels, où les experts opèrent de manière indépendante et parallèle, CoE traite les tokens de manière itérative à travers une chaîne d'experts à l'intérieur d'une couche. Pour permettre une sélection dynamique des experts à chaque itération, CoE utilise un routeur dédié à chaque étape d'itération dans une couche. Cette conception permet aux tokens de réévaluer et de sélectionner différents experts à chaque itération, plutôt que d'être assignés de manière statique. En conséquence, CoE introduit un mécanisme de routage flexible qui augmente la diversité des combinaisons d'experts et enrichit la capacité de représentation du modèle. CoE démontre une amélioration des performances avec un calcul fixe : sur des tâches de raisonnement mathématique, il réduit la perte de validation de 1,20 à 1,12 par rapport à un MoE standard. Au-delà des performances, CoE offre un nouvel axe de mise à l'échelle : la profondeur par itération d'experts, qui complète les stratégies conventionnelles de mise à l'échelle en largeur/profondeur. Par exemple, l'utilisation de 2x itérations correspond à la performance de 3x sélections d'experts (en largeur), tout en réduisant l'utilisation de la mémoire de 17,6 à 42 % par rapport à d'autres stratégies de mise à l'échelle. Notre analyse révèle que les avantages de CoE découlent de sa structure résiduelle itérative et de la spécialisation accrue des experts permise par le routage itératif, qui ensemble débloquent des représentations plus expressives. Le code est disponible à l'adresse https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE)
architecture that introduces sequential expert communication within each layer.
Unlike traditional MoE models, where experts operate independently in parallel,
CoE processes tokens iteratively across a chain of experts inside a layer. To
support dynamic expert selection across iterations, CoE employs a dedicated
router at each iteration step within a layer. This design allows tokens to
re-evaluate and select different experts during each iteration, rather than
being statically assigned. As a result, CoE introduces a flexible routing
mechanism that increases the diversity of expert combinations and enriches the
model's representational capacity. CoE demonstrates improved performance under
fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to
1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling
axis: depth through expert iteration, which complements conventional
width/depth scaling. For example, using 2x iterations matches the performance
of 3x expert selections (in width), while reducing memory usage by 17.6-42%
relative to other scaling strategies. Our analysis reveals that CoE's benefits
stem from its iterative residual structure and enhanced expert specialization
empowered by iterative routing, which together unlock more expressive
representations. Code is available at https://github.com/ZihanWang314/coe.