ChatPaper.aiChatPaper

Rapport Technique Détaillé d'Arcee Trinity

Arcee Trinity Large Technical Report

February 19, 2026
papers.authors: Varun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins
cs.AI

papers.abstract

Nous présentons le rapport technique d'Arcee Trinity Large, un modèle sparse de type Mixture-of-Experts comptant 400 milliards de paramètres au total, dont 13 milliards sont activés par token. Nous décrivons également Trinity Nano et Trinity Mini, Trinity Nano possédant 6 milliards de paramètres totaux avec 1 milliard activé par token, et Trinity Mini 26 milliards de paramètres totaux avec 3 milliards activés par token. L'architecture moderne des modèles intègre une attention locale et globale entrelacée, une attention à porte, une normalisation sandwich à échelle de profondeur, et un routage sigmoïde pour le Mixture-of-Experts. Pour Trinity Large, nous introduisons également une nouvelle stratégie d'équilibrage de charge pour le MoE intitulée Soft-clamped Momentum Expert Bias Updates (SMEBU). Nous avons entraîné les modèles à l'aide de l'optimiseur Muon. Les trois modèles ont terminé leur entraînement sans aucun pic de perte. Trinity Nano et Trinity Mini ont été pré-entraînés sur 10 000 milliards de tokens, et Trinity Large sur 17 000 milliards de tokens. Les points de contrôle des modèles sont disponibles à l'adresse https://huggingface.co/arcee-ai.
English
We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.
PDF101February 21, 2026