아르시 트리니티 라지 기술 보고서
Arcee Trinity Large Technical Report
February 19, 2026
저자: Varun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins
cs.AI
초록
본 보고서는 총 400B 개의 파라미터를 보유하고 토큰당 13B 개의 파라미터가 활성화되는 희소 Mixture-of-Experts(전문가 혼합) 모델인 Arcee Trinity Large의 기술 보고서를 제출합니다. 또한 총 파라미터 6B(토큰당 활성화 1B)의 Trinity Nano, 총 파라미터 26B(토큰당 활성화 3B)의 Trinity Mini에 대해서도 함께 보고합니다. 본 모델들은 교차 적용된 지역/전역 어텐션, 게이트 어텐션, 깊이 비례 샌드위치 노름, MoE를 위한 시그모이드 라우팅 등 현대적인 아키텍처를 채택했습니다. Trinity Large의 경우 '소프트 클램핑 모멘텀 전문가 편향 업데이트(SMEBU)'라는 새로운 MoE 부하 분산 전략을 추가로 도입했습니다. 모델 학습에는 Muon 옵티마이저를 사용하였으며, 세 모델 모두 손실 급등 없이 학습을 완수했습니다. Trinity Nano와 Trinity Mini는 10조 토큰, Trinity Large는 17조 토큰으로 사전 학습을 수행했습니다. 모델 체크포인트는 https://huggingface.co/arcee-ai 에서 이용 가능합니다.
English
We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.