ChatPaper.aiChatPaper

FLAME-MoE: 전문가 혼합 언어 모델을 위한 투명한 종단간 연구 플랫폼

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

May 26, 2025
저자: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI

초록

최근 Gemini-1.5, DeepSeek-V3, Llama-4와 같은 대규모 언어 모델들은 Mixture-of-Experts(MoE) 아키텍처를 점점 더 많이 채택하고 있으며, 이는 토큰당 모델의 일부만 활성화함으로써 강력한 효율성-성능 균형을 제공한다. 그러나 학계 연구자들은 여전히 스케일링, 라우팅, 전문가 행동을 연구하기 위한 완전히 개방된 종단 간 MoE 플랫폼이 부족한 상황이다. 우리는 FLAME-MoE를 공개하였는데, 이는 38M에서 1.7B의 활성 매개변수를 가진 7개의 디코더 전용 모델로 구성된 완전 오픈소스 연구 도구이다. 이 아키텍처는 64명의 전문가와 상위 8개 게이팅 및 2개의 공유 전문가로 구성되어 현대의 생산용 LLM을 충실히 반영한다. 모든 학습 데이터 파이프라인, 스크립트, 로그 및 체크포인트는 재현 가능한 실험을 위해 공개되어 있다. 6개의 평가 작업에서 FLAME-MoE는 동일한 FLOPs로 학습된 밀집 기준선보다 평균 정확도를 최대 3.4포인트 향상시켰다. 전체 학습 추적 투명성을 활용하여, 우리는 (i) 전문가들이 점점 더 구별되는 토큰 하위 집합에 특화되고, (ii) 공동 활성화 행렬이 희소하게 유지되며 다양한 전문가 사용을 반영하고, (iii) 라우팅 행동이 학습 초기에 안정화된다는 초기 분석을 제시한다. 모든 코드, 학습 로그 및 모델 체크포인트는 https://github.com/cmu-flame/FLAME-MoE에서 확인할 수 있다.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

Summary

AI-Generated Summary

PDF21May 27, 2025