ChatPaper.aiChatPaper

Arcee Trinity 大規模技術レポート

Arcee Trinity Large Technical Report

February 19, 2026
著者: Varun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins
cs.AI

要旨

Arcee Trinity Largeの技術レポートを発表します。本モデルはスパースなMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数400B(1トークンあたり活性化パラメータ13B)を特徴とします。さらに、Trinity Nano(総パラメータ数6B、活性化1B/トークン)およびTrinity Mini(総パラメータ数26B、活性化3B/トークン)についても報告します。これらのモデルは、現代的なアーキテクチャとして、局所注意と大域注意の交互配置、ゲート付き注意機構、深度スケーリングサンドイッチ正規化、MoEにおけるシグモイドルーティングを備えています。Trinity Largeでは、新たなMoE負荷分散戦略「Soft-clamped Momentum Expert Bias Updates(SMEBU)」を導入しています。学習にはMuonオプティマイザを採用し、3モデルすべてにおいて損失の急上昇なく学習を完了しました。Trinity NanoとTrinity Miniは10兆トークン、Trinity Largeは17兆トークンで事前学習されています。モデルチェックポイントはhttps://huggingface.co/arcee-ai で公開されています。
English
We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.
PDF101February 21, 2026