Chain-of-Experts: Desbloqueando el Poder de Comunicación de los Modelos de Mezcla de Expertos
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
June 23, 2025
Autores: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI
Resumen
Proponemos Chain-of-Experts (CoE), una nueva arquitectura Mixture-of-Experts (MoE) que introduce comunicación secuencial entre expertos dentro de cada capa. A diferencia de los modelos MoE tradicionales, donde los expertos operan de manera independiente y en paralelo, CoE procesa los tokens de forma iterativa a través de una cadena de expertos dentro de una capa. Para permitir la selección dinámica de expertos en cada iteración, CoE emplea un enrutador dedicado en cada paso de iteración dentro de una capa. Este diseño permite que los tokens reevalúen y seleccionen diferentes expertos durante cada iteración, en lugar de ser asignados estáticamente. Como resultado, CoE introduce un mecanismo de enrutamiento flexible que aumenta la diversidad de combinaciones de expertos y enriquece la capacidad representativa del modelo. CoE demuestra un mejor rendimiento bajo un cómputo fijo: en tareas de razonamiento matemático, reduce la pérdida de validación de 1.20 a 1.12 en comparación con un MoE estándar. Más allá del rendimiento, CoE ofrece un nuevo eje de escalado: la profundidad a través de la iteración de expertos, que complementa el escalado convencional en anchura/profundidad. Por ejemplo, usar 2x iteraciones iguala el rendimiento de 3x selecciones de expertos (en anchura), mientras reduce el uso de memoria en un 17.6-42% en relación con otras estrategias de escalado. Nuestro análisis revela que los beneficios de CoE provienen de su estructura residual iterativa y la especialización mejorada de los expertos potenciada por el enrutamiento iterativo, que juntos desbloquean representaciones más expresivas. El código está disponible en https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE)
architecture that introduces sequential expert communication within each layer.
Unlike traditional MoE models, where experts operate independently in parallel,
CoE processes tokens iteratively across a chain of experts inside a layer. To
support dynamic expert selection across iterations, CoE employs a dedicated
router at each iteration step within a layer. This design allows tokens to
re-evaluate and select different experts during each iteration, rather than
being statically assigned. As a result, CoE introduces a flexible routing
mechanism that increases the diversity of expert combinations and enriches the
model's representational capacity. CoE demonstrates improved performance under
fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to
1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling
axis: depth through expert iteration, which complements conventional
width/depth scaling. For example, using 2x iterations matches the performance
of 3x expert selections (in width), while reducing memory usage by 17.6-42%
relative to other scaling strategies. Our analysis reveals that CoE's benefits
stem from its iterative residual structure and enhanced expert specialization
empowered by iterative routing, which together unlock more expressive
representations. Code is available at https://github.com/ZihanWang314/coe.