Chain-of-Experts: Desbloqueando o Poder de Comunicação dos Modelos de Mistura de Especialistas

Resumo

Propomos o Chain-of-Experts (CoE), uma nova arquitetura de Mixture-of-Experts (MoE) que introduz comunicação sequencial entre especialistas dentro de cada camada. Diferente dos modelos MoE tradicionais, onde os especialistas operam de forma independente e paralela, o CoE processa tokens iterativamente através de uma cadeia de especialistas dentro de uma camada. Para suportar a seleção dinâmica de especialistas ao longo das iterações, o CoE emprega um roteador dedicado em cada passo de iteração dentro de uma camada. Esse design permite que os tokens reavaliem e selecionem diferentes especialistas durante cada iteração, em vez de serem atribuídos estaticamente. Como resultado, o CoE introduz um mecanismo de roteamento flexível que aumenta a diversidade de combinações de especialistas e enriquece a capacidade representacional do modelo. O CoE demonstra um desempenho aprimorado sob computação fixa: em tarefas de raciocínio matemático, reduz a perda de validação de 1,20 para 1,12 em comparação com um MoE padrão. Além do desempenho, o CoE oferece um novo eixo de escalonamento: profundidade através da iteração de especialistas, que complementa o escalonamento convencional de largura/profundidade. Por exemplo, usar 2x iterações corresponde ao desempenho de 3x seleções de especialistas (em largura), enquanto reduz o uso de memória em 17,6-42% em relação a outras estratégias de escalonamento. Nossa análise revela que os benefícios do CoE decorrem de sua estrutura residual iterativa e da especialização aprimorada dos especialistas possibilitada pelo roteamento iterativo, que juntos desbloqueiam representações mais expressivas. O código está disponível em https://github.com/ZihanWang314/coe.

English

We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE) architecture that introduces sequential expert communication within each layer. Unlike traditional MoE models, where experts operate independently in parallel, CoE processes tokens iteratively across a chain of experts inside a layer. To support dynamic expert selection across iterations, CoE employs a dedicated router at each iteration step within a layer. This design allows tokens to re-evaluate and select different experts during each iteration, rather than being statically assigned. As a result, CoE introduces a flexible routing mechanism that increases the diversity of expert combinations and enriches the model's representational capacity. CoE demonstrates improved performance under fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to 1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling axis: depth through expert iteration, which complements conventional width/depth scaling. For example, using 2x iterations matches the performance of 3x expert selections (in width), while reducing memory usage by 17.6-42% relative to other scaling strategies. Our analysis reveals that CoE's benefits stem from its iterative residual structure and enhanced expert specialization empowered by iterative routing, which together unlock more expressive representations. Code is available at https://github.com/ZihanWang314/coe.

Chain-of-Experts: Desbloqueando o Poder de Comunicação dos Modelos de Mistura de Especialistas

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

Resumo

Support