ChatPaper.aiChatPaper

체인-오브-익스퍼트: Mixture-of-Experts 모델의 커뮤니케이션 능력 해제하기

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

June 23, 2025
저자: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
cs.AI

초록

우리는 각 레이어 내에서 순차적인 전문가 간 통신을 도입한 새로운 Mixture-of-Experts(MoE) 아키텍처인 Chain-of-Experts(CoE)를 제안합니다. 기존의 MoE 모델에서 전문가들이 병렬로 독립적으로 동작하는 것과 달리, CoE는 레이어 내부의 전문가 체인을 통해 토큰을 반복적으로 처리합니다. 각 반복 단계에서 동적 전문가 선택을 지원하기 위해, CoE는 레이어 내 각 반복 단계마다 전용 라우터를 사용합니다. 이 설계는 토큰이 각 반복 동안 전문가를 재평가하고 다른 전문가를 선택할 수 있게 하여, 정적으로 할당되는 것을 방지합니다. 결과적으로, CoE는 전문가 조합의 다양성을 증가시키고 모델의 표현 능력을 풍부하게 하는 유연한 라우팅 메커니즘을 도입합니다. CoE는 고정된 계산량 하에서 향상된 성능을 보여줍니다: 수학적 추론 작업에서 표준 MoE 대비 검증 손실을 1.20에서 1.12로 감소시킵니다. 성능 외에도, CoE는 기존의 너비/깊이 스케일링을 보완하는 새로운 스케일링 축인 전문가 반복을 통한 깊이를 제공합니다. 예를 들어, 2배의 반복을 사용하면 3배의 전문가 선택(너비 기준)과 동등한 성능을 달성하면서도 다른 스케일링 전략 대비 메모리 사용량을 17.6-42% 감소시킵니다. 우리의 분석은 CoE의 이점이 반복적 잔차 구조와 반복 라우팅에 의해 강화된 전문가 전문화에서 비롯되며, 이 둘이 결합되어 더욱 표현력 있는 표현을 가능하게 한다는 것을 보여줍니다. 코드는 https://github.com/ZihanWang314/coe에서 확인할 수 있습니다.
English
We propose Chain-of-Experts (CoE), a new Mixture-of-Experts (MoE) architecture that introduces sequential expert communication within each layer. Unlike traditional MoE models, where experts operate independently in parallel, CoE processes tokens iteratively across a chain of experts inside a layer. To support dynamic expert selection across iterations, CoE employs a dedicated router at each iteration step within a layer. This design allows tokens to re-evaluate and select different experts during each iteration, rather than being statically assigned. As a result, CoE introduces a flexible routing mechanism that increases the diversity of expert combinations and enriches the model's representational capacity. CoE demonstrates improved performance under fixed compute: on math reasoning tasks, it reduces validation loss from 1.20 to 1.12 compared to a standard MoE. Beyond performance, CoE offers a new scaling axis: depth through expert iteration, which complements conventional width/depth scaling. For example, using 2x iterations matches the performance of 3x expert selections (in width), while reducing memory usage by 17.6-42% relative to other scaling strategies. Our analysis reveals that CoE's benefits stem from its iterative residual structure and enhanced expert specialization empowered by iterative routing, which together unlock more expressive representations. Code is available at https://github.com/ZihanWang314/coe.
PDF321June 25, 2025