Chain-of-Experts: Het communicatiepotentieel van Mixture-of-Experts-modellen ontsluiten
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
June 23, 2025
Auteurs: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI
Samenvatting
Wij stellen Chain-of-Experts (CoE) voor, een nieuwe Mixture-of-Experts (MoE)-architectuur die sequentiële communicatie tussen experts binnen elke laag introduceert. In tegenstelling tot traditionele MoE-modellen, waar experts onafhankelijk en parallel werken, verwerkt CoE tokens iteratief via een keten van experts binnen een laag. Om dynamische expertselectie over iteraties heen te ondersteunen, maakt CoE gebruik van een toegewijde router bij elke iteratiestap binnen een laag. Dit ontwerp stelt tokens in staat om tijdens elke iteratie opnieuw te evalueren en verschillende experts te selecteren, in plaats van statisch toegewezen te worden. Hierdoor introduceert CoE een flexibel routeringsmechanisme dat de diversiteit van expertcombinaties vergroot en het representatievermogen van het model verrijkt. CoE toont verbeterde prestaties onder vaste rekenkracht: bij wiskundige redeneertaken reduceert het de validatiefout van 1.20 naar 1.12 in vergelijking met een standaard MoE. Naast prestaties biedt CoE een nieuwe schaalingsas: diepte door expertiteratie, wat conventionele breedte/diepte-schaling aanvult. Bijvoorbeeld, het gebruik van 2x iteraties komt overeen met de prestaties van 3x expertselecties (in breedte), terwijl het geheugengebruik met 17.6-42% wordt verminderd in vergelijking met andere schaalingsstrategieën. Onze analyse toont aan dat de voordelen van CoE voortkomen uit de iteratieve reststructuur en de verbeterde expertspecialisatie die mogelijk wordt gemaakt door iteratieve routering, wat samen meer expressieve representaties mogelijk maakt. De code is beschikbaar op https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE)
architecture that introduces sequential expert communication within each layer.
Unlike traditional MoE models, where experts operate independently in parallel,
CoE processes tokens iteratively across a chain of experts inside a layer. To
support dynamic expert selection across iterations, CoE employs a dedicated
router at each iteration step within a layer. This design allows tokens to
re-evaluate and select different experts during each iteration, rather than
being statically assigned. As a result, CoE introduces a flexible routing
mechanism that increases the diversity of expert combinations and enriches the
model's representational capacity. CoE demonstrates improved performance under
fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to
1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling
axis: depth through expert iteration, which complements conventional
width/depth scaling. For example, using 2x iterations matches the performance
of 3x expert selections (in width), while reducing memory usage by 17.6-42%
relative to other scaling strategies. Our analysis reveals that CoE's benefits
stem from its iterative residual structure and enhanced expert specialization
empowered by iterative routing, which together unlock more expressive
representations. Code is available at https://github.com/ZihanWang314/coe.