ChatPaper.aiChatPaper

Chain-of-Experts: 混合エキスパートモデルのコミュニケーション能力を解き放つ

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

June 23, 2025
著者: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI

要旨

我々は、Chain-of-Experts(CoE)という新しいMixture-of-Experts(MoE)アーキテクチャを提案する。CoEは、各層内で専門家間の逐次的なコミュニケーションを導入する。従来のMoEモデルでは、専門家が並列に独立して動作するのに対し、CoEは層内の専門家チェーンを介してトークンを反復的に処理する。反復ステップごとに動的な専門家選択を可能にするため、CoEは各層内の各反復ステップで専用のルーターを採用する。この設計により、トークンは静的に割り当てられるのではなく、各反復ごとに異なる専門家を再評価して選択できる。その結果、CoEは柔軟なルーティングメカニズムを導入し、専門家の組み合わせの多様性を増し、モデルの表現能力を豊かにする。CoEは、固定計算量下で性能向上を示す:数学的推論タスクにおいて、標準的なMoEと比較して検証損失を1.20から1.12に減少させる。性能を超えて、CoEは新しいスケーリング軸を提供する:専門家の反復による深さであり、従来の幅/深さのスケーリングを補完する。例えば、2倍の反復を使用することで、3倍の専門家選択(幅において)と同等の性能を達成し、他のスケーリング戦略と比較してメモリ使用量を17.6-42%削減する。我々の分析は、CoEの利点がその反復的な残差構造と、反復ルーティングによって強化された専門家の特化から生じることを明らかにする。これらが相まって、より表現力豊かな表現を可能にする。コードはhttps://github.com/ZihanWang314/coeで公開されている。
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE) architecture that introduces sequential expert communication within each layer. Unlike traditional MoE models, where experts operate independently in parallel, CoE processes tokens iteratively across a chain of experts inside a layer. To support dynamic expert selection across iterations, CoE employs a dedicated router at each iteration step within a layer. This design allows tokens to re-evaluate and select different experts during each iteration, rather than being statically assigned. As a result, CoE introduces a flexible routing mechanism that increases the diversity of expert combinations and enriches the model's representational capacity. CoE demonstrates improved performance under fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to 1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling axis: depth through expert iteration, which complements conventional width/depth scaling. For example, using 2x iterations matches the performance of 3x expert selections (in width), while reducing memory usage by 17.6-42% relative to other scaling strategies. Our analysis reveals that CoE's benefits stem from its iterative residual structure and enhanced expert specialization empowered by iterative routing, which together unlock more expressive representations. Code is available at https://github.com/ZihanWang314/coe.
PDF321June 25, 2025