Chain-of-Experts: Desbloqueando o Poder de Comunicação dos Modelos de Mistura de Especialistas
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
June 23, 2025
Autores: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI
Resumo
Propomos o Chain-of-Experts (CoE), uma nova arquitetura de Mixture-of-Experts (MoE) que introduz comunicação sequencial entre especialistas dentro de cada camada. Diferente dos modelos MoE tradicionais, onde os especialistas operam de forma independente e paralela, o CoE processa tokens iterativamente através de uma cadeia de especialistas dentro de uma camada. Para suportar a seleção dinâmica de especialistas ao longo das iterações, o CoE emprega um roteador dedicado em cada passo de iteração dentro de uma camada. Esse design permite que os tokens reavaliem e selecionem diferentes especialistas durante cada iteração, em vez de serem atribuídos estaticamente. Como resultado, o CoE introduz um mecanismo de roteamento flexível que aumenta a diversidade de combinações de especialistas e enriquece a capacidade representacional do modelo. O CoE demonstra um desempenho aprimorado sob computação fixa: em tarefas de raciocínio matemático, reduz a perda de validação de 1,20 para 1,12 em comparação com um MoE padrão. Além do desempenho, o CoE oferece um novo eixo de escalonamento: profundidade através da iteração de especialistas, que complementa o escalonamento convencional de largura/profundidade. Por exemplo, usar 2x iterações corresponde ao desempenho de 3x seleções de especialistas (em largura), enquanto reduz o uso de memória em 17,6-42% em relação a outras estratégias de escalonamento. Nossa análise revela que os benefícios do CoE decorrem de sua estrutura residual iterativa e da especialização aprimorada dos especialistas possibilitada pelo roteamento iterativo, que juntos desbloqueiam representações mais expressivas. O código está disponível em https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE)
architecture that introduces sequential expert communication within each layer.
Unlike traditional MoE models, where experts operate independently in parallel,
CoE processes tokens iteratively across a chain of experts inside a layer. To
support dynamic expert selection across iterations, CoE employs a dedicated
router at each iteration step within a layer. This design allows tokens to
re-evaluate and select different experts during each iteration, rather than
being statically assigned. As a result, CoE introduces a flexible routing
mechanism that increases the diversity of expert combinations and enriches the
model's representational capacity. CoE demonstrates improved performance under
fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to
1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling
axis: depth through expert iteration, which complements conventional
width/depth scaling. For example, using 2x iterations matches the performance
of 3x expert selections (in width), while reducing memory usage by 17.6-42%
relative to other scaling strategies. Our analysis reveals that CoE's benefits
stem from its iterative residual structure and enhanced expert specialization
empowered by iterative routing, which together unlock more expressive
representations. Code is available at https://github.com/ZihanWang314/coe.