ChatPaper.aiChatPaper

Chain-of-Experts: Die Kommunikationskraft von Mixture-of-Experts-Modellen freisetzen

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

June 23, 2025
Autoren: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI

Zusammenfassung

Wir schlagen Chain-of-Experts (CoE) vor, eine neue Mixture-of-Experts (MoE)-Architektur, die eine sequenzielle Kommunikation zwischen Experten innerhalb jeder Schicht einführt. Im Gegensatz zu traditionellen MoE-Modellen, bei denen Experten unabhängig und parallel arbeiten, verarbeitet CoE Token iterativ über eine Kette von Experten innerhalb einer Schicht. Um die dynamische Expertenauswahl über Iterationen hinweg zu unterstützen, verwendet CoE einen dedizierten Router bei jedem Iterationsschritt innerhalb einer Schicht. Dieses Design ermöglicht es Token, bei jeder Iteration erneut zu bewerten und verschiedene Experten auszuwählen, anstatt statisch zugewiesen zu werden. Dadurch führt CoE einen flexiblen Routing-Mechanismus ein, der die Vielfalt der Expertenkombinationen erhöht und die Repräsentationsfähigkeit des Modells bereichert. CoE zeigt eine verbesserte Leistung bei festgelegter Rechenleistung: Bei mathematischen Denkaufgaben reduziert es den Validierungsverlust von 1,20 auf 1,12 im Vergleich zu einem Standard-MoE. Über die Leistung hinaus bietet CoE eine neue Skalierungsachse: Tiefe durch Experteniteration, die die konventionelle Skalierung in Breite/Tiefe ergänzt. Beispielsweise erreicht die Verwendung von 2x Iterationen die Leistung von 3x Expertenauswahlen (in der Breite), während der Speicherverbrauch im Vergleich zu anderen Skalierungsstrategien um 17,6–42 % reduziert wird. Unsere Analyse zeigt, dass die Vorteile von CoE aus seiner iterativen Residualstruktur und der verbesserten Experten-Spezialisierung resultieren, die durch iteratives Routing ermöglicht wird, wodurch ausdrucksstärkere Repräsentationen freigesetzt werden. Der Code ist verfügbar unter https://github.com/ZihanWang314/coe.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE) architecture that introduces sequential expert communication within each layer. Unlike traditional MoE models, where experts operate independently in parallel, CoE processes tokens iteratively across a chain of experts inside a layer. To support dynamic expert selection across iterations, CoE employs a dedicated router at each iteration step within a layer. This design allows tokens to re-evaluate and select different experts during each iteration, rather than being statically assigned. As a result, CoE introduces a flexible routing mechanism that increases the diversity of expert combinations and enriches the model's representational capacity. CoE demonstrates improved performance under fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to 1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling axis: depth through expert iteration, which complements conventional width/depth scaling. For example, using 2x iterations matches the performance of 3x expert selections (in width), while reducing memory usage by 17.6-42% relative to other scaling strategies. Our analysis reveals that CoE's benefits stem from its iterative residual structure and enhanced expert specialization empowered by iterative routing, which together unlock more expressive representations. Code is available at https://github.com/ZihanWang314/coe.
PDF321June 25, 2025