Chain-of-Experts: Sbloccare il Potenziale di Comunicazione dei Modelli Mixture-of-Experts
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
June 23, 2025
Autori: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI
Abstract
Proponiamo Chain-of-Experts (CoE), una nuova architettura Mixture-of-Experts (MoE) che introduce una comunicazione sequenziale tra gli esperti all'interno di ogni livello. A differenza dei tradizionali modelli MoE, in cui gli esperti operano in parallelo in modo indipendente, CoE elabora i token in modo iterativo attraverso una catena di esperti all'interno di un livello. Per supportare la selezione dinamica degli esperti tra le iterazioni, CoE utilizza un router dedicato a ogni passo di iterazione all'interno di un livello. Questo design consente ai token di rivalutare e selezionare esperti diversi durante ogni iterazione, anziché essere assegnati in modo statico. Di conseguenza, CoE introduce un meccanismo di routing flessibile che aumenta la diversità delle combinazioni di esperti e arricchisce la capacità rappresentativa del modello. CoE dimostra un miglioramento delle prestazioni a parità di calcolo: nei task di ragionamento matematico, riduce la perdita di validazione da 1,20 a 1,12 rispetto a un MoE standard. Oltre alle prestazioni, CoE offre un nuovo asse di scalabilità: la profondità attraverso l'iterazione degli esperti, che complementa la scalabilità convenzionale in larghezza/profondità. Ad esempio, utilizzando 2x iterazioni si ottengono prestazioni equivalenti a 3x selezioni di esperti (in larghezza), riducendo l'uso di memoria del 17,6-42% rispetto ad altre strategie di scalabilità. La nostra analisi rivela che i benefici di CoE derivano dalla sua struttura residua iterativa e dalla maggiore specializzazione degli esperti abilitata dal routing iterativo, che insieme sbloccano rappresentazioni più espressive. Il codice è disponibile all'indirizzo https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE)
architecture that introduces sequential expert communication within each layer.
Unlike traditional MoE models, where experts operate independently in parallel,
CoE processes tokens iteratively across a chain of experts inside a layer. To
support dynamic expert selection across iterations, CoE employs a dedicated
router at each iteration step within a layer. This design allows tokens to
re-evaluate and select different experts during each iteration, rather than
being statically assigned. As a result, CoE introduces a flexible routing
mechanism that increases the diversity of expert combinations and enriches the
model's representational capacity. CoE demonstrates improved performance under
fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to
1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling
axis: depth through expert iteration, which complements conventional
width/depth scaling. For example, using 2x iterations matches the performance
of 3x expert selections (in width), while reducing memory usage by 17.6-42%
relative to other scaling strategies. Our analysis reveals that CoE's benefits
stem from its iterative residual structure and enhanced expert specialization
empowered by iterative routing, which together unlock more expressive
representations. Code is available at https://github.com/ZihanWang314/coe.